新出来的一款生物学推理模型:BioReason,首个将 DNA基础模型与LLM深度结合的模型,疾病通路预测(比如判断某个基因变异导致什么疾病)准确率达到了97%

变异效应预测准确率达80-88%。其比仅用DNA或LLM的模型相比,性能提升超过15%

它把DNA 基础模型与LLM相结合,来用于生物推理,通过监督微调+GRPO强化学习来进行训练

它不仅能预测,还能解释原因,它会逐步推理,这个就能让科学家们清楚看到基因变异是如何导致疾病的,而不是只知道结果不知道过程

BioReason的出现让基因组AI变得可解释、可操作,从分析基因变异到研发新药,这或许会改变生物学研究方式


摘要

从复杂的基因组数据中解锁深入且可解释的生物推理能力,是一项阻碍科学发现的重大人工智能挑战。当前的DNA基础模型虽然在序列表示方面表现强劲,但在多步推理方面存在困难,并且缺乏固有的透明度和生物学上直观的解释。我们提出了BioReason,这是一种开创性的架构,首次将DNA基础模型与大型语言模型(LLM)进行了深度融合。这种新颖的连接使LLM能够将基因组信息作为基本输入进行直接处理和推理,从而促进了一种新形式的多模态生物理解。BioReason的复杂多步推理能力通过监督微调针对性强化学习进行开发,引导系统生成逻辑性强、生物学上连贯的推论。在包括基于KEGG的疾病通路预测(准确率从88%提升至97%)和变异效应预测在内的生物推理基准测试中,BioReason显示出比强大的单模态基线模型平均15%的性能提升。

关键贡献

  • 新颖的多模态架构: 首次成功将DNA基础模型与LLM集成,为AI驱动的生物学研究建立了新的方法论。

  • 先进的推理方法学: 结合监督微调和强化学习的系统性训练方法,激励模型进行多步生物推理。

  • 新的生物推理基准: 开发并整理了一套用于评估生物推理能力的新基准测试,包括一个从KEGG(京都基因与基因组百科全书)进行基因通路和疾病预测的带注释推理数据集。

  • 实证性能提升: 证明BioReason的性能优于单独使用或简单组合使用的DNA基础模型和LLM,相比基线平均提升15%以上

  • 可解释的推理轨迹: 提供生成逐步生物推理轨迹的机制,该机制能提供可解释的预测,从而增强科学洞察力和假设生成能力。


©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似网站