区分真实声音和深度伪造声音
人工智能生成的 Deepfake 视频越来越难以识别为假视频,这一挑战可能会严重扭曲即将举行的总统选举的结果。卡内基梅隆大学心理学教授劳里·海勒与南特中央理工学院的哈夫萨·瓦伊迪、奥萨马·哈德、莫丹·泰勒和马蒂厄·拉格朗日合作,分析了研究团队开发的第一个深度神经网络检测器所犯的错误,该检测器可以自动将环境声音分类为真实的还是人工智能生成的。
研究团队在论文《Deepfake 环境音频检测》中发表了他们的研究成果,并于 8 月 27 日在法国里昂举行的第 32 届欧洲信号处理会议(EUSIPCO 2024) 上发表该论文。
环境声音是指录音的背景噪音,即除语音和音乐以外的任何声音。这些声音可能包括汽车驶过的声音或另一个房间关门的声音。
研究团队开发的探测器目前只能识别七类环境声音。在测试环境声音探测器时,南特中央理工学院团队发现它非常准确,最终在约 6,000 种声音中发现了约 100 种错误。
分析显示,探测器可能犯两种错误。探测器可以将人工智能生成的声音标记为真实,也可以将真实的声音标记为人工智能生成的声音。海勒的研究旨在确定人类是否能找到探测器漏掉的声音线索,从而判断一些漏掉的真实声音是真实的,或者一些漏掉的人工智能生成的声音是假的。
Heller 的研究由 20 名人类参与者组成,他们聆听了检测器错误识别的同一组声音。与检测器一样,参与者的任务是识别他们听到的声音中哪些是真实的,哪些是人工智能生成的。
研究中使用的真实环境声音来自公开数据库。人工智能生成的环境声音取自一场比赛的获奖者,参赛者提交使用人工智能开发的声音,获胜的声音是最准确或最真实的。
对于检测器判断为真实的假声音,人类研究的结果并不确定。人类的准确率约为 50%,这表明他们对欺骗检测器的声音的假性不敏感。参与者可能无法明确地对他们听到的声音进行分类,结果反映的是随机选择,而不是可靠的答案。
然而,对于检测器判断为假的真实声音,人类的正确率约为 71%,比检测器更准确。这一统计数据表明,答案不是偶然的结果,而是参与者对真实声音的明确和正确的分类。
海勒总结说,这些结果暗示这些真实环境声音中可能存在某种线索,人类能够检测到,但探测器却无法识别。如果研究人员能够识别出这种假设的线索,人工智能声音探测器就可以得到改进,以提高其准确性。
环境声音检测器和 Heller 的研究成果可以推动更复杂的 AI 检测工具的开发。之前的 AI 声音检测器只能识别语音,但有了环境声音检测器,研究人员最终可以达到检测器可以分析更复杂的语音和环境声音记录的程度。
进一步研究改进人工智能检测工具对于跟上快速发展人工智能驱动的深度伪造技术至关重要。
海勒说:“现在公众开始低估这种能力,而这种能力正在迅速增强。最糟糕的情况是,人工智能已经发展到人类无法分辨什么是真实,什么是人工的。我们希望在这种情况发生之前做好准备。”
海勒还提到了实施能够规范人工智能驱动的媒体组件的政策的重要性。
她建议道:“使用人工智能生成的所有内容都应该带有标记。”
页:
[1]