新的人工智能学习模型提高了姿态检测的性能和效率
通用人工智能系统(如 OpenAI 的 GPT)依赖大量训练数据来提高模型准确性和性能。研究或医疗人工智能应用通常既缺乏训练数据,又缺乏计算能力,因此可以利用一种新模型来提高人工智能输出的效率、相关性和准确性,以适应更专业的场景。大型预训练语言模型 (PLM) 使用越来越大的数据集(如 Wikipedia)来训练和优化机器学习 (ML) 模型以执行特定任务。虽然大型 PLM(如 ChatGPT)的准确性和性能随着时间的推移而提高,但在没有大型数据集或由于计算限制而无法使用的情况下,大型 PLM 效果不佳。
简而言之,需要一种新的 AI 解决方案来有效地利用 ML 进行研究、医疗或其他应用,因为这些应用无法提供大量信息来充分训练现有的 AI 模型。
为了解决这个问题,新加坡科技研究局 (A*STAR) 的计算机科学家团队最近设计了一种协作知识注入方法,可以使用较少的训练数据有效地训练 ML 模型。在这种情况下,研究人员创建了一个模型,可以根据推文、商业评论或其他语言数据的上下文,更准确地确定特定目标(例如产品或政治候选人)的立场或赞成或反对意见。
该团队于 8 月 28 日在《大数据挖掘与分析》杂志上发表了他们的研究成果。
“由于目标的多样性和注释数据的有限性,立场检测本质上是一项资源匮乏的任务。尽管存在这些挑战,但立场检测对于监控社交媒体、进行民意调查和制定治理策略至关重要,”A*STAR 前沿人工智能研究中心 (CFAR) 高级科学家、论文第一作者 Yan Ming 表示。“增强基于人工智能的低资源立场检测方法对于确保这些工具在实际应用中有效可靠至关重要。”
训练数据集越小,AI 预测模型的准确性就会受到多大影响。例如,维基百科中的“违法”一词链接到 Judas Priest 的一首重金属歌曲,而不是该词的真正定义:以非法方式行事。这种错误的训练数据会严重影响 ML 模型的性能。
为了提高依赖于较小训练数据集的AI立场检测的准确性,研究团队专注于协作模型机制:验证来自不同来源的知识并更有效地学习选择性特征。
“大多数人工智能系统都依赖于使用大量预定义数据集开发的预训练模型,这些数据集可能会过时,导致性能下降。我们提出的方法通过整合来自多个来源的经过验证的知识来解决这一挑战,确保模型保持相关性和有效性,”Ming 说。
Ming 表示:“由于预训练的大型语言模型具有大规模参数,因此它们还需要大量带注释的数据进行训练。我们的方法引入了一种协作适配器,它结合了最少数量的可训练参数……提高了训练效率并提高了特征学习能力。”
该团队还通过分阶段优化算法来提高大型 PLM 的优化效率。
为了测试他们的模型,研究人员在三个公开的姿势检测数据集上进行了实验:VAST、P-Stance和COVID-19-Stance。然后将该团队模型的性能与 TAN、BERT、WS-BERT-Dual 和其他 AI 模型的性能进行了比较。
通过 F1 分数(ML 模型准确率)进行衡量,研究团队针对低资源训练数据的新姿态检测模型在所有三个数据集上的得分始终高于其他 AI 模型,F1 分数在 79.6% 到 86.91% 之间。目前,70% 或更高的 F1 分数被认为是良好的。
新的立场检测模型极大地提高了人工智能在更专业研究环境中的实用性,并为未来的进一步优化提供了模板。
“我们的主要重点是在低资源现实世界应用中进行高效学习。与专注于开发通用人工智能 (AGI) 模型的大型人工智能公司不同,我们的目标是创建更高效的人工智能方法,让公众和研究界都受益,”CFAR 首席科学家、论文合著者 Joey Tianyi Zhou 表示。
新加坡科学技术研究局(A*STAR)前沿人工智能研究中心(CFAR)和高性能计算研究所(IHPC)的 Ivor W. Tsang 也参与了这项研究。
页:
[1]