找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 40|回复: 0

语言数据库改进了奥地利德语的自动语音识别

[复制链接]

3297

主题

0

回帖

6594

积分

管理员

积分
6594
发表于 2024-12-13 14:52:17 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
来到奥地利的第二语言使用者虽然精通德语,但通常很难理解当地的方言。同样,语音识别系统也常常无法识别带有地方口音的词汇选择和发音。
格拉茨工业大学 (TU Graz) 信号处理和语音通信实验室的 Barbara Schuppler 与知识中心和格拉茨大学的研究人员一起研究了对话语音的复杂性,建立了奥地利德语对话数据库,并获得了有关如何改进语音识别的新知识。
该结果最近发表在《计算机语音与语言》杂志上的论文“对话语音有什么复杂的?基于 HMM 和基于 Transformer 的 ASR 架构的比较”中。
录音室里的畅快对话
该项目的主要目标之一是提高自动语音识别 (ASR) 系统在与奥地利人进行自发对话时的准确率。该团队专注于解决日常对话中自发性、短句、说话人重叠和方言口音带来的挑战。
为了建立合适的数据库,研究人员建立了 GRASS 数据库(格拉茨朗读和自发语音语料库)。它包含 38 位说话者的录音,既包括朗读文本,也包括自发对话,即两个彼此熟悉的人在录音室中自由交谈一小时而没有指定话题。
由于两种说话风格都是由同一个人录制的,因此研究团队能够消除说话者身份和录音质量对 ASR 性能的影响。
基于该数据库,该团队比较了各种 ASR 架构,包括历史悠久的 HMM 模型(隐马尔可夫模型)和相对较新的基于 Transformer 的模型。结果表明,基于 Transformer 的模型(例如 Whisper 语音识别系统)对于包含大量上下文的较长句子非常有效,但对于对话中经常出现的短小、零碎的句子则存在问题。
传统的基于 HMM 的系统经过发音变化的明确训练,被证明对短句和方言语言更为稳健。因此,研究人员希望采用一种结合两种架构优势的混合系统方法。他们已经将转换器模型与基于知识的词典和统计语言模型相结合,从而取得了显著的改进。
可能用于医学诊断
研究团队还分析了语速、语调和词汇选择等特征如何影响语音识别的准确性。这些发现有助于开发能够更好地理解人类语音所有细微差别的 ASR 系统。
该团队计划继续在这些领域进行研究,并将研究成果融入到开发新的、更强大的语音识别系统中。然而,该项目的成果还具有超出这一范围的有趣潜在应用,特别是在医疗诊断和人机交互领域。
未来,ASR 系统可用于根据自发对话中的语音模式识别痴呆症或癫痫症,或使与社交机器人的互动更加自然。
“自发的语音,尤其是对话中的语音,与背诵或朗读的语音相比具有完全不同的特点,”舒普勒说。“通过分析人与人之间的交流,我们在项目中获得了重要的发现,这些发现在技术上也对我们有所帮助,并开辟了新的应用领域。”
“我们正与萨尔茨堡大学、格拉茨医科大学和维也纳医科大学的合作伙伴一起开展后续项目,以在奥地利科学基金项目中创建的基础之上创建与社会相关的应用程序。”

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2025-1-22 13:43 , Processed in 0.027029 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表