Josiah01 发表于 2024-7-16 15:59:24

语音情感识别的时间移位

  人类可以根据通话对方说话的方式和内容猜测对方的感受。语音情感识别是这种能力的人工智能版本。为了解决下游语音情感识别应用中的通道对齐问题,上海华东师范大学的一个研究小组开发了一个时间移位模块,该模块在微调和特征提取场景中的表现优于最先进的方法。
  该小组的研究成果于 2 月 21 日发表在《智能计算》杂志上。
  据作者介绍,“这种架构丰富性可以在不增加计算负担的情况下提高性能。”他们引入了三种具有不同架构的时间移位模型:卷积神经网络、变压器和长短期记忆循环神经网络。
  在大型基准 IEMOCAP 数据集上,实验将这些时间移位模型与现有模型进行了对比,发现它们通常更准确,尤其是在微调场景中。当使用可训练的加权和层时,时间移位模型在特征提取方面也表现良好。
  此外,时间移位模型在三个小型数据集 RAVDESS、SAVEE 和 CASIA 上的表现优于基线。此外,时间移位作为网络模块,其表现优于用于数据增强的常见移位操作。
  新的时间移位模块允许混合过去、现在和未来的特征,从而实现更好的性能。虽然这种混合有利于提高准确性,但也可能导致错位,从而损害准确性。
  作者采用了两种策略来解决这一权衡:控制移位比例和选择移位位置。测试模型时,所有通道的一半、四分之一、八分之一和十六分之一被移位;比例越大,混合越多,但错位越多。测试了两种不同的位置模型:残差移位,其中时间移位模块位于网络的一个分支上,因此保留了未移位的数据和移位的数据;就地移位,即移位所有数据。
  在研究了移位比例和移位位置之后,作者为三种架构中的每一种选择了表现最佳的变体,以便在微调和特征提取方面针对最先进的模型进行实验。
  现有的基于深度神经网络架构的语音情感识别方法虽然有效,但面临着准确率饱和的挑战。也就是说,随着网络规模的逐渐增加,准确率并不会提高。问题的关键部分在于通道信息和时间信息没有被独立处理。
  未来的工作可以研究数据集的规模和下游模型的复杂性对准确性的影响。其他下游任务,例如音频分类,值得进行定量分析。此外,使未来版本的时间移位模型的参数可学习以实现自动优化将是有利的。

页: [1]
查看完整版本: 语音情感识别的时间移位