Nat. Biotechnol|仅需4卡3.5小时训练的DNA语言模型助力变异效应预测
预测基因组变异的效应是一个研究热点。随着全基因组测序技术的普及,我们积累了海量的基因组数据,但如何准确解读这些变异的生物学意义,尤其是非编码区变异的功能,仍然是一个巨大的挑战。 为...
BioMaster:基于多智能体的生信自动分析系统
在生物信息学领域,随着生物数据的爆炸性增长,分析流程的复杂性也在不断增加。传统的生物信息学工具和流程往往依赖于大量的手动操作,这不仅效率低下,而且难以扩展。近年来,基于大型语言模型...
当我用DeepSeek预测AI for BioScience未来3-5年发展趋势
预测未来3-5年AI在生物科学(AI for BioScience)的发展趋势,可以从技术突破、跨学科融合、数据驱动创新以及伦理监管等多个维度进行分析。以下是一些关键趋势的展望: 1. 蛋白质与分子设计的革...
Sci. Adv.|MOBER:深度学习助整合多源癌症转录组数据,打破临床与实验模型的壁垒
引言 癌症研究中,实验模型如癌细胞系和患者源性异种移植模型(PTX)一直是科学家们探索癌症生物学和开发治疗手段的重要工具。然而,这些模型与实际临床肿瘤之间存在显著差异,特别是在基因表达...
bioRxiv|L2G:一张GPU卡也能训的基因组学语言模型
预训练语言模型(如BERT、GPT等)在自然语言处理(Natural Language Processing, NLP)领域取得了显著进展,其在多种语言任务中的表现令人瞩目。这一成功激发了基因组学领域的研究者们尝试开发...
Genome Biology|常用计算工具会产生相互矛盾和过于乐观的AUPRC值
在生物医学和生物信息学领域,PRC 和 AUPRC 有着非常广泛的应用。然而,常用的计算工具本身存在的问题可能会被研究人员忽略,从而可能导致对结果解读的偏差。2024 年 5 月,香港中文大学曹沁研...
[文章分享] Biobank测序时代的罕见变异关联分析进展综述
「文献题目」 Recent advances and challenges of rare variant association analysis in the biobank sequencing era 「中文标题」 生物样本库测序时代罕见变异关联分析的最新进展和挑战 「期...
GWAS_Flow:使用GPU加速大规模数据的全基因组关联分析
21世纪是生物的世纪,生物数据的增长速度越来越快。很多分析工具在开发时并没有考虑到大规模数据的应用场景。在数据量不大的时候,这些工具的计算时间并不会太长,可以让人接受。但在数据规模庞...
使用Python版XP-CLR检测基因组中的选择信号
上一篇文章 《使用XP-CLR检测基因组中的选择信号》 介绍了 XP-CLR。XP-CLR 是一种是基于选择扫荡(selective sweeep)的似然方法。选择扫荡可以增加群体之间的遗传分化,导致等位基因频率偏离中...
使用XP-CLR检测基因组中的选择信号
检测基因组选择信号的方法有很多种,其中 XP-CLR 方法是常用的一种。XP-CLR 是陈华老师、Nick Patterson 和 David Reich 在 2010 年发表的方法,全称叫 the cross-population composite likelih...