研究表明,法学硕士学位可能被恶意用于毒害生物医学知识图谱
近年来,医学研究人员发明了各种新技术,帮助他们组织和分析大量研究数据,揭示不同变量(例如疾病、药物、蛋白质等)之间的联系。其中一种方法是构建所谓的生物医学知识图谱 (KG),即生物医学数据集的结构化表示。北京大学和华盛顿大学的研究人员最近发现,大型语言模型 (LLM) 是一种机器学习技术,目前被广泛用于生成和修改书面文本,但恶意用户可能会利用这种技术来毒害生物医学知识图谱。他们的论文发表在《自然机器智能》上,论文表明,LLM 可用于生成伪造的科学论文,进而产生不可靠的知识图谱并对医学研究产生不利影响。
“我们的研究受到了大型语言模型(LLM) 的快速发展及其在生物医学领域的潜在滥用的启发,”该论文的第一作者杨俊伟告诉 Tech Xplore。“我们怀疑这些模型可能会生成破坏医学知识图谱 (KG) 的恶意内容。我们特别想调查这些模型是否会被滥用,通过误导这些 KG 推荐错误的药物。”
杨和他的同事最近进行的这项研究的主要目的是探索使用 LLM 毒害 KG 的可能性,并评估这种恶意使用模型可能对生物医学发现造成的影响。此外,研究人员希望揭示使用公开数据集进行医学研究的风险,从而为制定防止这些数据集被毒害的有效措施提供参考。
“我们制定了一个条件文本生成问题,旨在生成恶意摘要,以增加给定药物-疾病对之间的相关性,”杨解释说。“我们开发了 Scorpius,这是一个三步流程,用于创建这些摘要。首先,Scorpius 识别最有效的恶意链接,然后使用通用 LLM 将链接转换为相应的恶意摘要,最后使用专门的医学模型调整摘要。”
他们使用 Scorpius 管道生成虚构但真实的科学论文摘要后,将这些恶意摘要与Medline 书目数据集中存储的包含 3,818,528 篇真实科学论文的数据集混合在一起。随后,他们试图确定处理这个损坏的数据集如何影响他们构建的知识图谱中药物与疾病关系的相关性。
杨说:“我们的研究结果表明,一篇恶意摘要可以显著操纵药物-疾病对的相关性,使 71.3% 的药物-疾病对的排名从前 1,000 名上升到前 10 名。”
“这表明 KG 存在严重漏洞,并强调在 LLM 时代采取措施确保医学知识的完整性的迫切需要。此外,我们提出了几种有效的防御策略,包括构建防御者、构建更大的知识图谱以及利用经过同行评审的文章来降低中毒的可能性。”
这项最新研究的结果强调,公开的医学研究数据集很容易被 LLM 污染,进而导致不可靠的知识图谱。杨和他的同事希望他们的论文能很快为开发有效的方法提供参考,以防止使用 LLM 恶意更改知识图谱。
“我们现在计划探索更有效的恶意摘要检测机制,”杨补充道。“此外,我们希望将来将出版时间等数据特征纳入我们的框架,因为我们怀疑新兴主题更容易受到毒害。”
页:
[1]