“极端增强”人工智能模型可以消除社交媒体“噪音”
社交媒体为研究人员提供了大量数据,帮助他们了解组织和个人如何利用该技术与粉丝群沟通并扩大粉丝群。然而,手动分析内容可能非常耗时,在某些情况下,由于数据量太大,甚至根本不可能。虽然机器学习模型可以提供帮助,但它们也存在一系列挑战。马萨诸塞大学阿默斯特分校公共政策助理教授 Viviana Chiu Sik Wu对 43 项研究进行了系统回顾,这些研究分析了慈善和非营利组织的社交媒体数据。然后,她设计并测试了一个将机器学习与人工监督相结合的模型,以更有效地分析内容。
该研究发表在《中国政府治理》杂志上。
吴发现,大多数研究严重依赖手动编码来分析相对较小的数据集,从而错失了人工智能带来的自动化和可扩展性优势。她说,在使用人工智能的情况下,语言细微差别和大型语言模型训练过程中出现的其他变量往往会阻碍人工智能的发展。
“我们已经看到很多使用主题建模的研究,但如果没有对数据进行适当的训练,这些无监督模型可能会在结果中引入偏差和噪音,”吴解释道。
此外,她指出,许多研究忽略了整个数据类别,而这些数据可以分为三类:文本(消息内容)、参与度(喜欢、评论、转发等)和网络数据(关注者、朋友等如何相互联系)。
吴使用编码样本开发了她所谓的“极端增强”模型,该模型利用计算能力结合人类的能力将消息分类到特定的预先设定的类别中,即所谓的监督机器学习。
研究警告说,虽然无监督机器学习可以识别隐藏的模式和关系,但对于内容分析而言,“如果没有大量的训练示例,它可能非常不可靠”。
为了测试她的模型,吴收集了 2017-18 年美国 192 个社区基金会的 Twitter/X 账户中的 66,749 条推文。她手动分析了 15% 的消息,并用它们来训练和测试各种算法,以确定最佳预测模型,以自动分析剩余的 56,718 条推文。
该模型的任务是识别与公众参与相关的帖子,这些帖子特别难以与有关筹款、赠款等的其他信息区分开来,因为内容经常与其他主题重叠。
结果产生了 6,331 条经过验证的公众参与推文。尽管“极端增强”模型很有前景,但吴警告说,它需要进一步改进才能达到最高的准确率。
她说,很明显的是,将手动内容分析与自动机器学习相结合可以成为分析无法手动处理的庞大社交媒体数据集的有力工具。
吴说:“这些研究结果可以扩展到非营利组织之外的其他领域,以分析社交媒体上的大量观察数据集。”
然而,她指出,近年来,访问这些数据对于研究人员来说变得更具挑战性,因为包括 Twitter/X 和 Facebook 在内的一些平台对向研究人员和公众提供的数据设置了额外的限制。
这些变化让学者们开始关注其他平台,例如 Reddit 和 TikTok。
她说:“我们需要在获取数据方面更具创造力和创新力。”
页:
[1]