用于新药物的“化学 ChatGPT”:研究人员训练 AI 预测潜在活性成分
波恩大学的研究人员训练了一个人工智能流程来预测具有特殊性质的潜在活性成分,从而得出一个化学语言模型——一种分子的 ChatGPT。经过训练阶段,人工智能能够准确地再现具有已知双靶活性的化合物的化学结构,这些化合物可能是特别有效的药物。这项研究现已发表在《细胞报告物理科学》上。如今,任何想在奶奶 90 岁生日时给她写首诗的人都不需要成为诗人:只需在 ChatGPT 中输入一个简短的提示,几秒钟内,人工智能就会吐出一长串与寿星名字押韵的单词。如果你愿意,它甚至可以创作一首十四行诗来搭配。
波恩大学的研究人员在他们的研究中实施了一个类似的模型,即化学语言模型。然而,这不会产生韵律。相反,人工智能会显示可能具有特别理想特性的化合物的结构式:它们能够与两种不同的目标蛋白质结合。在生物体中,这意味着,例如,它们可以同时抑制两种酶。
需要具有双重功效的活性成分
“在药物研究中,这些类型的活性化合物因其多药理学而备受青睐,”Jürgen Bajorath 教授解释道。这位计算化学专家是拉玛机器学习和人工智能研究所生命科学领域人工智能的负责人,也是波恩大学 b-it(波恩-亚琛国际信息技术中心)生命科学信息学项目的负责人。“由于具有所需多靶点活性的化合物可同时影响多个细胞内过程和信号通路,因此它们通常特别有效——例如在抗击癌症方面。”
原则上,这种效果也可以通过联合使用不同的药物来实现。然而,存在药物间不良相互作用的风险,而且不同的化合物在体内的分解速度也不同,因此很难将它们一起服用。
找到一种能特异性地影响单一靶蛋白作用的分子并非易事。设计具有预定义双重作用的化合物则更加复杂。化学语言模型未来可能会在这方面有所帮助。ChatGPT 经过数十亿页书面文本的训练,可以学会自己组织句子。
化学语言模型的工作原理类似,但可供学习的数据量却非常小。不过,原则上,它们也会输入文本,例如所谓的 SMILES 字符串,它将有机分子及其结构显示为字母和符号序列。
Bajorath 研究小组的 Sanjana Srinivasan 表示:“我们现在已经用成对的字符串训练了我们的化学语言模型。其中一个字符串描述了一种我们知道只针对一种靶蛋白的分子。另一个字符串代表一种化合物,除了这种蛋白质外,它还影响第二种靶蛋白。”
人工智能学习化学联系
该模型被输入了超过 70,000 个这样的配对。这使它能够获得关于正常活性化合物与具有双重效果的化合物有何不同的隐性知识。
Bajorath 解释道:“当我们用一种针对目标蛋白质的化合物喂养它时,它就会在此基础上提出一些分子,这些分子不仅可以对抗这种蛋白质,还可以对抗另一种蛋白质。”
具有双重效果的训练化合物通常针对相似的蛋白质,因此在体内发挥相似的功能。然而,在药物研究中,人们也在寻找影响完全不同类别的酶或受体的活性成分。
为了让人工智能做好这项任务的准备,在一般学习阶段之后进行了微调。研究人员使用了几十对特殊的训练对来教会算法建议的化合物应该针对哪些不同类别的蛋白质。这有点像指示 ChatGPT 这次不要创作十四行诗,而是创作一首打油诗。
经过微调后,该模型实际上产生了已被证明可以对抗所需靶蛋白组合的分子。“这表明该过程是有效的,”Bajorath 说。然而,在他看来,这种方法的优势并不在于可以立即找到效果超过现有药物的新化合物。
“在我看来,更有趣的是,人工智能经常会提出大多数化学家甚至不会立即想到的化学结构,”他解释道。“在一定程度上,它引发了‘跳出框框’的想法,并提出了原创的解决方案,从而可以产生新的设计假设和方法。”
页:
[1]