找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 38|回复: 0

破解生命密码:新型人工智能模型学习 DNA 的隐藏语言

[复制链接]

1744

主题

0

回帖

3488

积分

管理员

积分
3488
发表于 2024-8-6 08:17:40 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
  DNA 包含维持生命所需的基本信息。了解这些信息如何存储和组织一直是上个世纪最大的科学挑战之一。
  借助 GROVER(一种以人类 DNA 为训练基础的新型大型语言模型),研究人员现在可以尝试解码隐藏在我们基因组中的复杂信息。
  GROVER 由德累斯顿工业大学生物技术中心 (BIOTEC) 的一个团队开发,它将人类 DNA 视为文本,学习其规则和背景,从而提取有关 DNA 序列的功能信息。这款新工具发表在《自然机器智能》杂志上,有可能改变基因组学并加速个性化医疗。
  自从发现双螺旋结构以来,科学家们一直试图了解 DNA 中编码的信息。70 年后,人们清楚地认识到 DNA 中隐藏的信息是多层的。基因组中只有 1-2% 由基因(编码蛋白质的序列)组成。
  “DNA 除了编码蛋白质之外,还有许多其他功能。一些序列调节基因,另一些序列用于结构目的,大多数序列同时发挥多种功能。目前,我们还不了解大多数 DNA 的含义。在理解 DNA 的非编码区域方面,我们似乎才刚刚开始触及表面。这正是人工智能和大型语言模型可以提供帮助的地方,”BIOTEC 研究小组负责人 Anna Poetsch 博士说。
  DNA 是一种语言
  大型语言模型(如 GPT)彻底改变了我们对语言的理解。大型语言模型仅基于文本进行训练,因此具备了在多种语境中使用语言的能力。
  “DNA 是生命的密码。为什么不把它当成一种语言呢?”Poetsch 博士说。Poetsch 团队在参考人类基因组上训练了一个大型语言模型。由此产生的工具名为 GROVER,即“通过提取表征获得的基因组规则”,可用于从 DNA 中提取生物学含义。
  “GROVER 学习了 DNA 的规则。就语言而言,我们谈论的是语法、句法和语义。对于 DNA,这意味着学习控制序列的规则、核苷酸和序列的顺序以及序列的含义。就像 GPT 模型学习人类语言一样,GROVER 基本上学会了如何‘说’DNA,”该项目的研究员 Melissa Sanabria 博士解释道。
  研究团队表明,GROVER 不仅可以准确预测后续的 DNA 序列,还可以用于提取具有生物学意义的上下文信息,例如识别 DNA 上的基因启动子或蛋白质结合位点。GROVER 还可以学习通常被认为是“表观遗传”的过程,即在 DNA 之上发生而不是被编码的调控过程。
  “令人着迷的是,通过仅使用 DNA 序列训练 GROVER,而无需任何功能注释,我们实际上能够提取有关生物功能的信息。对我们来说,这表明功能(包括一些表观遗传信息)也被编码在序列中,”Sanabria 博士说。
  DNA词典
  “DNA 类似于语言。它有四个字母组成序列,而这些序列具有意义。然而,与语言不同,DNA 没有明确的词语,”Poetsch 博士说。DNA 由四个字母(A、T、G 和 C)和基因组成,但没有预先定义的不同长度的序列可以组合起来构建基因或其他有意义的序列。
  为了训练 GROVER,该团队首先必须创建一个 DNA 词典。他们使用了压缩算法中的一个技巧。“这一步至关重要,使我们的 DNA 语言模型有别于之前的尝试,”Poetsch 博士说。
  “我们分析了整个基因组,寻找最常出现的字母组合。我们从两个字母开始,一遍又一遍地检查 DNA,直到找到最常见的多字母组合。通过这种方式,在大约 600 个循环中,我们将 DNA 分解成‘单词’,让 GROVER 在预测下一个序列时表现最佳,”Sanabria 博士解释道。
  人工智能在基因组学中的前景
  GROVER 有望解开遗传密码的不同层面。DNA 蕴含着关于我们为何为人类、我们的疾病倾向以及我们对治疗的反应的关键信息。
  “我们相信,通过语言模型了解 DNA 规则将有助于我们揭开 DNA 中隐藏的生物学含义的深度,推动基因组学和个性化医疗的发展,”Poetsch 博士说。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-9-29 06:21 , Processed in 0.081144 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表