使用多语言数据集增强 YouTube 和 Bilibili 上的仇恨视频检测
社交媒体彻底改变了社区内信息共享的方式,但它也可能成为仇恨内容的粪坑。目前对仇恨内容检测的研究主要集中在基于文本的分析上,而仇恨视频检测仍未得到充分探索。新加坡科技设计大学 (SUTD) 助理教授 Roy Lee 解释说:“视频中的仇恨言论可以通过肢体语言、语气和图像传达,而传统的文本分析却忽略了这些因素。随着 YouTube 和 TikTok 等平台覆盖大量受众,视频形式的仇恨内容可能更具说服力和情感吸引力,从而增加了影响或激化观众的风险。”
在其论文《MultiHateClip:用于 YouTube 和 Bilibili 上仇恨视频检测的多语言基准数据集》中,李教授带领团队开发了 MultiHateClip,这是一种新型多语言数据集,旨在增强社交媒体平台上的仇恨视频检测。他之前创建了 SGHateCheck,这是一种评估多语言环境中仇恨言论的新型功能测试。该研究发表在arXiv预印本服务器上。
MultiHateClip 使用仇恨词典和专注于性别仇恨的人工注释,将视频分为三类:仇恨、冒犯和正常。仇恨内容涉及基于性取向等特定属性对特定群体的歧视。
冒犯性内容令人痛心,但缺乏仇恨言论的针对性伤害,也不会煽动仇恨。普通内容既不仇恨也不冒犯。与二元分类(仇恨和非仇恨)相比,这种三分类系统允许采用更细致入微的内容审核方法。
在审查了 10,000 多个视频后,该团队从 YouTube 和 Bilibili 中挑选了 1,000 个带注释的短片,分别代表英语和中文,用于 MultiHateClip。在这些短片中,出现了针对女性的性别仇恨的一致模式。这些视频中的大多数都结合了文字、视觉和听觉元素来传达仇恨,这强调了理解仇恨言论需要采用多模式方法。
与现有数据集相比,MultiHateClip 拥有更简单、更详细的注释。它区分了仇恨视频和冒犯性视频,并概述了视频的哪些部分是仇恨视频、目标受害者是谁以及哪些形式(即文字、视觉、听觉)描绘了仇恨。它还提供了强大的跨文化视角,因为它包含来自西方(YouTube)和中国(Bilibili)背景的视频,突出了仇恨在不同文化中表达的不同方式。
该团队预计,区分仇恨视频和冒犯性视频会很困难,因为两者有相似之处,例如煽动性语言和有争议的话题。仇恨言论针对特定群体,而冒犯性内容则引起不适,但无意歧视。语气、语境和意图的细微差别使得人类注释者和机器学习模型很难区分仇恨内容和冒犯性内容。
“此外,文化和语言的细微差别使区分更加复杂,特别是在英语和中文等多语言环境中,仇恨或冒犯的表达方式可能存在很大差异。这种复杂性凸显了需要更复杂的检测模型来捕捉细微的差别,”李助理教授强调道。
该研究还使用 MultiHateClip 测试了最先进的仇恨视频检测模型。结果突出了当前模型的三个关键局限性:难以区分仇恨内容和冒犯性内容、预训练模型在处理非西方文化数据方面的局限性以及对隐性仇恨的理解不足。这些差距强调了仇恨言论检测需要文化敏感性和多模式方法。
MultiHateClip 体现了设计、人工智能和技术交叉的价值。其现实意义显而易见——检测仇恨言论并防止其传播。该模型针对视频内容进行了优化,具有跨文化重点,在以视频为主要交流形式的社交媒体平台上尤其有用,例如 YouTube、TikTok 和 Bilibili。内容版主、政策制定者和教育组织将受益于使用 MultiHateClip 来了解和缓解仇恨言论的传播。
“总体而言,MultiHateClip 在创建更安全、更具包容性的网络环境中发挥着至关重要的作用,”李助理教授表示,他分享了与社交媒体平台合作在现实环境中部署该模型的可能性。此外,该团队可能会考虑扩大数据集以包含更多语言和文化背景,通过创建能够区分仇恨和冒犯性内容的更好算法来提高模型性能,并开发实时仇恨言论检测工具。
页:
[1]