研究人员揭露语音情感识别模型易受对抗性攻击
语音情感识别领域的最新进展凸显了深度学习技术在各种应用中的巨大潜力。然而,这些深度学习模型容易受到对抗性攻击。米兰大学的一组研究人员系统地评估了白盒和黑盒攻击对语音情感识别中不同语言和性别的影响。这项研究于5 月 27 日发表在《智能计算》上。
这项研究强调了卷积神经网络长短期记忆模型对对抗性样本的相当脆弱性,对抗性样本是精心设计的“扰动”输入,会导致模型产生错误的预测。研究结果表明,所有考虑的对抗性攻击都会显著降低语音情感识别模型的性能。作者认为,这些模型对对抗性攻击的敏感性“可能引发严重后果”。
研究人员提出了一种音频数据处理和特征提取方法,该方法针对卷积神经网络长短期记忆架构进行了量身定制。他们研究了三个数据集,德语的 EmoDB、意大利语的 EMOVO 和英语的 RAVDESS。他们利用快速梯度符号法、基本迭代法、DeepFool、基于雅可比矩阵的显著性图攻击和 Carlini 和 Wagner 进行白盒攻击,利用单像素攻击和边界攻击进行黑盒攻击。
黑盒攻击,尤其是边界攻击,尽管对模型内部工作原理的访问有限,但取得了令人印象深刻的效果。尽管白盒攻击没有这样的限制,但黑盒攻击有时表现优于白盒攻击;也就是说,它们生成的对抗样本性能更佳,干扰更少。
作者表示:“这些观察结果令人担忧,因为它们意味着攻击者只需仔细检查模型的输出,就有可能取得显著成果,而无需了解模型的内部运行。”
本研究从性别角度探讨了对抗性攻击对男性和女性言语以及不同语言言语的不同影响。在评估三种语言的攻击影响时,仅观察到微小的表现差异。
英语似乎最容易受到影响,而意大利语表现出最高的抵抗力。对男性和女性样本的详细检查表明男性样本略有优势,其准确率和扰动略低,特别是在白盒攻击场景中。然而,男性和女性样本之间的差异可以忽略不计。
“我们设计了一个流程来标准化这 3 种语言的样本并提取对数梅尔声谱图。我们的方法包括使用音调变换和时间拉伸技术来扩充数据集,同时保持最大样本持续时间为 3 秒,”作者解释道。此外,为了确保方法的一致性,该团队在所有实验中使用了相同的卷积神经网络长短期记忆架构。
虽然发表揭示语音情感识别模型漏洞的研究似乎可以为攻击者提供有价值的信息,但不分享这些发现可能会带来更大的危害。研究的透明度使攻击者和防御者都能了解这些系统的弱点。
通过公开这些漏洞,研究人员和从业人员可以更好地准备和加强他们的系统以抵御潜在威胁,最终有助于建立更安全的技术环境。
页:
[1]