引言
近年来,生成式人工智能尤其是大语言模型(LLM)取得了显著进展,但在生物医学研究中的应用仍处于起步阶段。目前,生物医学研究工作者使用LLM主要有两种途径:一是大型企业提供的商业平台,二是具备编程知识的研究工作者开发的自研系统。
然而,这两种方式都存在局限性。商业平台缺乏透明度,无法满足可重复研究的标准,且存在隐私和商业压力问题。例如,用户数据可能被复用,且算法细节不透明。研究工作者自研开发的系统虽然可能大多比较透明,但对大多数生物医学研究者来说难以企及,因为它们往往需要额外的专业技能,如编程、数据管理、机器学习知识等,这使得研究结果难以稳健和可重复。
因此,LLM在生物医学的应用仍停留在零散案例,远落后于医学影像领域成熟的AI框架。为填补这一空白,德国海德堡大学的Sebastian Lobentanzer和Julio Saez-Rodriguez团队以及众多研究者在Nature Biotechnology上合作发表了一篇论文,提出了BioChatter开源框架。
BioChatter是一个开源的Python框架,旨在遵循开放科学原则,开发定制的生物医学研究软件。BioChatter的模块化架构使其能够广泛应用于各种生物医学研究场景,其灵活的组合方式支持从快速原型设计到完全封装部署的广泛应用。
BioChatter的核心架构与功能
模块化架构
BioChatter提供多种API(如Python、REST)和两个图形用户界面(基于Python的“Light”用于快速原型设计和更全面的JavaScript应用程序“Next”),以满足不同用户的需求。
它还促进了在简单性/经济性与安全性之间的定制部署,用户可以根据自己的需求在公共数据库、自托管云数据库和本地数据库之间进行选择,平衡安全性与成本。
开放生态集成
BioChatter整合了开源LLM部署工具和专有LLM提供商的不同API,允许用户在不改变代码的情况下切换不同的模型和提供商。基于统一的API层,可以无缝对接开源LLM工具(如Ollama)、商业模型(如OpenAI)、知识图谱(BioCypher)及公共数据库(OncoKB、BLAST)等。
此外,它还与现有的开源基础设施(如BioCypher和其他数据库)集成,通过注入领域知识来执行检索增强生成(RAG)。BioChatter还通过LLM参数化API查询的能力,促进了实时服务(包括基于Web的API)的集成。
系统提示与多智能体系统
BioChatter的可定制平台允许用户通过系统提示将其与自己的上下文对齐,并使用基于智能体的系统进行高级工作流程。例如,通过简单的配置文件,用户可以实现多智能体系统,执行从简单的事实检查到基于结果迭代改进知识图查询等复杂任务。
生物医学研究中的应用
基准测试与持续监测
为解决LLM工作流程中的可重复性挑战,BioChatter开发了一个持续基准测试系统,允许社区监控所有包含模型在特定任务上的性能。每当添加新功能(如知识图查询生成)时,就会引入一系列测试来验证其基于社区驱动用例的功能。基准测试框架在所有模型和相关参数上运行这些测试,并通过BioChatter网站向社区报告结果。
知识图谱与LLM的协同
在知识图连接性方面,BioChatter与BioCypher知识图谱的原生交互使所有LLM的性能大幅提升。通过BioCypher模式配置中对知识图谱组件的详细描述,可以有效指导LLM使用知识图谱。未来,BioChatter计划将这种方法扩展到从文本和图像中提取信息,并开始开发新的框架BioGather来支持这一努力。
开放科学与社区参与
BioChatter不是为了与现有基础设施或消费产品竞争,而是利用开源基础设施,高效地满足生物医学研究的具体需求。它通过开放和透明的承诺,与专有消费者导向产品区分开来。BioChatter的最终目标是协调整个科学知识管理生态系统的API,包括从文本和图像中提取信息、知识表示,到将知识应用于决策、数据分析、假设生成和科学交流。
为了促进早期合作,BioChatter遵循完全开源的开发模式,并通过BioChatter联盟(Supplementary Note: The BioChatter Consortium)启动了项目,以应对研究软件支持、知识管理、出版和大规模药物发现等挑战。未来,生成式AI模型将通过对比训练,从文本、图像和分子测量(如基因组学和转录组学)等多种相关模态中合成信息,以增强其在推理中的能力。
结语
BioChatter为生物医学研究提供了一个灵活、模块化的平台,旨在减轻开发和维护负担,同时增强应用的稳健性。它不仅关注技术的前沿发展,更强调社区的参与和合作,以推动生物医学研究的进步。我们鼓励社区成员通过请求功能、贡献代码和分享研究及应用来参与这一进程,共同探索生成式AI在生物医学领域的无限可能。
参考
文献: Lobentanzer, S. et al. A platform for the biomedical application of large language models. Nature Biotechnology (2025).
官网: http://biochatter.org/
代码: https://github.com/biocypher/biochatter
暂无评论内容