科学家开发机器学习工具,可准确识别 22 个阿拉伯语国家的阿拉伯语方言
沙迦大学的科学家相信他们已经创建了一个人工智能系统,可以自动识别某人所说的阿拉伯方言。这项研究发表在IEEE Xplore上。他们说,他们的系统揭示了阿拉伯方言的丰富而复杂的结构,而传统的语音系统迄今为止还无法准确地解释和识别这些方言。
“阿拉伯语是一种丰富的语言,有许多方言,每种方言都有自己独特的词汇、表达方式和发音。这种多样性使得技术很难准确理解和区分它们,”计算机科学与智能系统教授阿什拉夫·埃尔纳加尔 (Ashraf Elnagar) 说。
“为了解决这个问题,我们开发了一个可以自动识别某人所说的阿拉伯方言的系统。”
阿拉伯语是中东、北非和阿拉伯半岛 22 个国家的官方语言,也是全球使用人数最多的语言之一,有超过 3.7 亿人以阿拉伯语为母语。它也是世界上最具文化深度的语言之一,以阿拉伯语为母语或将其作为第二语言或外语学习的人也会发现他们也在学习伊斯兰教及其文化。
阿拉伯语是中东、北非和阿拉伯半岛 22 个国家的官方语言,也是全球使用最广泛的语言之一。
阿拉伯语的字母与英语完全不同,其音系中有许多独特的声音。阿拉伯语的声音和文字魅力让无数渴望流利地说阿拉伯语的外国学习者感到困惑。虽然大多数学习阿拉伯语的人都以标准形式学习,但许多外国学习者选择口语或日常用语,尤其是埃及和叙利亚货币中的口语形式。
作者表示,在尝试教计算机仅通过听口语来识别不同的阿拉伯方言时,他们面临的任务并不轻松。他们写道:“主要的挑战是开发一种能够从录音中准确识别各种阿拉伯方言的机器学习模型。
“这项任务因阿拉伯方言固有的多样性和复杂性而变得更加复杂,再加上音频处理和机器学习模型优化的技术挑战。”
作者利用了从 YouTube 收集的超过 3,000 小时音频片段数据集。数据包括阿尔及利亚、埃及、伊拉克、约旦、沙特阿拉伯、科威特、黎巴嫩、利比亚、毛里塔尼亚、突尼斯、摩洛哥、阿曼、巴勒斯坦、卡塔尔、苏丹、叙利亚、阿拉伯联合酋长国 (UAE)、巴林和也门的 19 种不同方言。
埃尔纳加教授表示,结果令人印象深刻,强调了该模型在区域和国家层面的阿拉伯语方言识别方面的高准确性。“我们的模型正确识别区域方言的准确率为 97.29%,识别特定国家方言的准确率为 94.92%。
阿拉伯语是一种丰富的语言,有许多方言,每种方言都有自己独特的词汇、表达方式和发音。图片来源:沙迦大学美术与设计学院 Hala Georges 博士。
“值得注意的是,我们仅使用其他研究人员通常所需的 29% 的训练数据就实现了这一目标。我们已经将我们的模型公开,以便其他研究人员和开发人员可以使用它们为阿拉伯语使用者创造更好的语音相关技术。”
该项目有望增强全球数百万阿拉伯语使用者的沟通能力和可及性。Elnagar 教授表示,该模型能够正确识别方言,可以“改善语音激活技术,如虚拟助手、翻译服务和自动客户支持系统”。
“这不仅弥合了不同阿拉伯语地区之间的沟通差距,而且还有助于使技术对阿拉伯语使用者更具包容性和用户友好性。”
埃尔纳加教授指出,尽管取得了令人震惊的成果,但该项目仍有改进空间。为此,作者们将他们的系统“在一个名为 HuggingFace 的平台上公开,以便其他人可以访问和借鉴我们的工作,以改进阿拉伯语技术。”
这项研究是 Elnagar 教授与他的三名本科生合作的成果,该项目旨在建立一个从语音中识别阿拉伯方言的深度学习模型。初步研究结果于 2024 年第 15 届年度应用计算本科生研究会议 (URC) 上首次公布。
沙迦语的字母与英语完全不同,有许多音系特有的声音。沙迦语的声音和文字魅力让无数渴望流利地说沙迦语的外国学习者着迷。
“我们的系统由我们敬业的学生开发,其背后的技术集成了尖端方法和深度学习技术。将其功能从文本扩展到音频信号使其与众不同,提供了一种理解和处理阿拉伯语的多模式方法,”Elnagar 教授说。
对于学生研究员 Amr Barakat 来说,该项目“弥补了语言技术的一个关键空白,使世界各地的阿拉伯语使用者能够进行更包容、更准确的交流。通过利用先进的机器学习,我们创建了一个不仅性能卓越,而且为语音识别未来创新铺平道路的模型。”
另一名学生研究员 Abdulla Aldhaheri 表示,该项目引起了业界的广泛兴趣,因为它“具有被广泛采用的潜力,可以为各种人工智能驱动的语言应用程序和服务带来诸多好处和改进”。
除了高精度之外,作者开发的工具与目前可用的模型不同,需要的数据和计算资源更少,因此应用范围更广。作者认为,这一特点是业界对他们的工作感兴趣的原因。他们指出,微软等科技公司和阿联酋沙迦的政府机构对他们的工作特别感兴趣。
页:
[1]