团队开发人工智能工具来检测东南亚语言中的仇恨言论

Josiah02 · 发表于 2024-8-27 19:21:53

互联网，尤其是社交媒体，在过去几十年中呈指数级增长。社交媒体的本质允许任何人上网并创建他们认为有趣的内容，无论是否合适。一种不适当的内容是仇恨言论——基于种族、宗教、性取向等针对某些人的攻击性或威胁性言论。
仇恨言论检测模型是一种可以识别和将在线评论归类为仇恨言论的计算系统。
新加坡科技设计大学 (SUTD) 助理教授 Roy Lee 表示：“这些模型对于审核在线内容和减轻有害言论的传播至关重要，尤其是在社交媒体上。”评估仇恨言论检测模型的性能很重要，但由于数据集中固有的偏见，使用保留测试集的传统评估通常无法正确评估模型的性能。
为了克服这一限制，HateCheck 和多语言 HateCheck (MHC) 被引入作为功能测试，通过模拟真实场景来捕捉仇恨言论的复杂性和多样性。在他们的研究论文《SGHateCheck：用于检测新加坡低资源语言中仇恨言论的功能测试》中，李助理教授和他的团队基于 HateCheck 和 MHC 的框架开发了 SGHateCheck，这是一种人工智能(AI) 驱动的工具，可以在新加坡和东南亚的特定背景下区分仇恨和非仇恨评论。
该作品出现在第八届网络虐待和危害研讨会（WOAH 2024）的论文集中。
有必要专门针对该地区的语言和文化背景创建评估工具。这是因为当前的仇恨言论检测模型和数据集大多基于西方背景，无法准确反映东南亚特定的社会动态和问题。
李助理教授表示：“SGHateCheck 旨在通过提供针对该地区特定需求的功能测试来解决这些差距，确保更准确、更具文化敏感性地检测仇恨言论。”
与 HateCheck 和 MHC 不同，SGHateCheck 使用大型语言模型(LLM) 将测试案例翻译并解释为新加坡的四种主要语言——英语、普通话、泰米尔语和马来语。然后，母语注释者会优化这些测试案例，以确保文化相关性和准确性。最终结果是超过 11,000 个测试案例被细致地注释为仇恨或非仇恨，这使得平台能够更细致地评估仇恨言论检测模型。
此外，虽然 MHC 涵盖多种语言，但它并不像 SGHateCheck 那样具有区域特异性。针对该地区独特的语言特征（例如新加坡式英语）量身定制的综合功能测试列表，加上专家指导，确保 SGHateCheck 测试实用且相关。
李助理教授强调说：“这种区域重点让 SGHateCheck 能够更准确地捕捉和评估仇恨言论的表现形式，而更广泛、更一般的框架可能无法充分解决这些表现形式。”
该团队还发现，在单语数据集上训练的 LLM 往往偏向于非仇恨言论分类。另一方面，在多语数据集上训练的 LLM 具有更均衡的性能，并且由于接触了更广泛的语言表达和文化背景，可以更准确地检测各种语言中的仇恨言论。这强调了在多语地区应用中纳入文化多样性和多语种训练数据的重要性。
SGHateCheck 是专门为解决东南亚的一个现实问题而开发的。它有望通过增强这些地区网络环境中仇恨言论的检测和审核发挥重要作用，帮助营造一个更加尊重和包容的网络空间。社交媒体、在线论坛和社区平台以及新闻和媒体网站只是 SGHateCheck 实施将大有裨益的众多领域中的一些。
幸运的是，一款使用 SGHateCheck 的新内容审核应用程序已列入李助理教授的未来计划中。他还计划将 SGHateCheck 扩展到其他东南亚语言，例如泰语和越南语。
SGHateCheck 展示了新加坡科技设计大学 (SUTD) 如何将尖端技术进步与周到的设计原则相结合，从而带来具有影响力的现实解决方案。通过使用设计、人工智能和技术，SGHateCheck 被开发用于分析当地语言和社会动态，以满足特定的社会需求。
李助理教授表示：“该研究致力于打造一种不仅技术先进，而且具有文化敏感性的仇恨言论检测工具，强调了以人为本的技术研发方法的重要性。”
更多信息： Ri Chi Ng 等人，SGHateCheck：新加坡低资源语言中检测仇恨言论的功能测试，第 8 届网络虐待和危害研讨会论文集 (WOAH 2024) (2024)。DOI ：10.18653/v1/2024.woah-1.24

账号		自动登录	找回密码
密码			立即注册