研究人员称，医院使用的人工智能转录工具发明了从未有人说过的东西

Josiah02 · 发表于 2024-10-28 23:03:17

科技巨头 OpenAI 宣称其人工智能转录工具 Whisper 具有接近“人类水平的稳健性和准确性”。
但 Whisper 有一个重大缺陷：根据对十几位软件工程师、开发人员和学术研究人员的采访，它很容易编造大段文本甚至整句话。这些专家表示，一些虚构的文本（业内称为幻觉）可能包括种族评论、暴力言论，甚至想象中的医疗治疗。
专家表示，此类捏造是有问题的，因为 Whisper 被全球众多行业用来翻译和转录采访、在流行的消费技术中生成文本以及为视频创建字幕。
他们表示，更令人担忧的是，尽管OpenAI警告不应在“高风险领域”使用该工具，但医疗中心仍急于使用基于 Whisper 的工具来记录患者与医生的咨询。
问题的全部范围很难判断，但研究人员和工程师表示，他们在工作中经常遇到 Whisper 的幻觉。例如，密歇根大学的一名研究人员在进行一项关于公开会议的研究时表示，在他开始尝试改进模型之前，他发现他检查的每 10 个音频转录中就有 8 个出现幻觉。
一位机器学习工程师表示，他最初分析了 100 多个小时的 Whisper 转录本，发现其中约有一半存在幻觉。第三位开发人员表示，他用 Whisper 创建的 26,000 份转录本中几乎每一份都发现了幻觉。
即使是录制良好的短音频样本，问题仍然存在。计算机科学家最近的一项研究发现，在他们检查的 13,000 多个清晰音频片段中，有 187 个幻觉。
研究人员表示，这种趋势将导致数百万条录音中出现数万处错误的转录。
去年之前一直担任拜登政府白宫科技政策办公室主任的阿隆德拉·尼尔森 (Alondra Nelson)表示，这样的错误可能会产生“非常严重的后果”，尤其是在医院环境中。
“没人希望误诊，”新泽西州普林斯顿高等研究院的教授纳尔逊说。“应该设立更高的标准。”
Whisper 还用于为聋人和听力障碍者制作隐藏式字幕，而这类人群特别容易出现转录错误。这是因为聋人和听力障碍者无法识别“隐藏在所有其他文本中的捏造内容”，克里斯蒂安·沃格勒 (Christian Vogler ) 说道，他是一名聋人，也是加劳德特大学技术访问计划的负责人。
OpenAI 被敦促解决这个问题
这种幻觉的普遍存在促使专家、倡导者和前 OpenAI 员工呼吁联邦政府考虑制定人工智能法规。他们表示，OpenAI 至少需要解决这一缺陷。
“如果公司愿意优先考虑这个问题，这个问题似乎是可以解决的，”旧金山研究工程师威廉·桑德斯 (William Saunders) 表示，他因担心公司的发展方向而于 2 月辞职。“如果你把它推出去，人们对它的功能过于自信，并将其集成到所有其他系统中，那就有问题了。”
2024 年 2 月 2 日星期五，纽约州伊萨卡康奈尔大学的计算机屏幕上显示由人工智能转录程序 Whisper 生成的文本。在这个例子中，说话者说，“她接了电话后，他开始祈祷”，而程序将其转录为“我感觉我要摔倒了。我感觉我要摔倒了，我感觉我要摔倒了……”。图片来源：美联社/Seth Wenig
OpenAI 发言人表示，公司正在不断研究如何减少幻觉，并对研究人员的发现表示赞赏，并补充说 OpenAI 在模型更新中纳入了反馈。
虽然大多数开发人员认为转录工具会出现拼写错误或犯其他错误，但工程师和研究人员表示，他们从未见过其他人工智能转录工具像 Whisper 一样产生如此多的幻觉。
耳语幻觉
该工具已集成到 OpenAI 旗舰聊天机器人 ChatGPT 的某些版本中，并且是 Oracle 和 Microsoft 云计算平台的内置产品，为全球数千家公司提供服务。它还用于将文本转录和翻译成多种语言。
仅在上个月，开源 AI 平台 HuggingFace 就下载了 Whisper 的一个最新版本，下载量超过 420 万次。该平台的机器学习工程师 Sanchit Gandhi 表示，Whisper 是最受欢迎的开源语音识别模型，被嵌入到从呼叫中心到语音助手等各种设备中。
康奈尔大学的艾莉森·科内克教授和弗吉尼亚大学的莫娜·斯隆教授研究了他们从卡内基梅隆大学的研究资料库 TalkBank 获得的数千个简短片段。他们确定，近 40% 的幻觉是有害或令人担忧的，因为说话者可能会被误解或歪曲。
在他们发现的一个例子中，一位发言者说道：“他，那个男孩，我不太确定，要拿走雨伞。”
2024 年 2 月 2 日星期五，纽约州伊萨卡康奈尔大学的计算机屏幕上显示由人工智能转录程序 Whisper 生成的文本。在这个例子中，说话者说，“她接了电话后，他开始祈祷”，而程序将其转录为“我感觉我要摔倒了。我感觉我要摔倒了，我感觉我要摔倒了……”。图片来源：美联社/Seth Wenig
但转录软件补充道，“他拿了十字架的一大块碎片，一小块碎片......我敢肯定他没有带恐怖刀，所以他杀了很多人。”
另一段录音中的一位发言人描述了“另外两名女孩和一名女士”。Whisper 编造了关于种族的额外评论，补充说“另外两名女孩和一名女士，嗯，是黑人。”
在第三次抄录中，Whisper 发明了一种不存在的药物，称为“高活性抗生素”。
研究人员并不确定 Whisper 和类似工具为何会产生幻觉，但软件开发人员表示，幻觉往往发生在暂停、背景声音或音乐播放时。
OpenAI 在其在线披露中建议不要在“决策环境中”使用 Whisper，因为“决策环境的准确性缺陷可能导致结果出现明显缺陷”。
记录医生预约
这一警告并没有阻止医院或医疗中心使用语音转文本模型（包括 Whisper）来转录医生就诊时所说的内容，从而让医务人员花更少的时间做笔记或撰写报告。
超过 30,000 名临床医生和 40 个医疗系统（包括明尼苏达州的 Mankato 诊所和洛杉矶儿童医院）已开始使用由Nabla开发的基于 Whisper 的工具，Nabla 在法国和美国设有办事处
Nabla 首席技术官马丁·雷森 (Martin Raison) 表示，该工具针对医学语言进行了微调，可以转录和总结患者的互动。
公司官员表示，他们知道 Whisper 可能会产生幻觉并正在采取缓解措施。
雷森表示，无法将 Nabla 的人工智能生成的记录与原始录音进行比较，因为 Nabla 的工具会出于“数据安全原因”删除原始音频。
纳布拉表示，该工具已用于记录约 700 万次医疗就诊记录。
前 OpenAI 工程师桑德斯表示，如果没有仔细检查记录，或者临床医生无法访问录音来验证其是否正确，删除原始音频可能会令人担忧。
他说道：“如果你抛弃了基本事实，你就无法发现错误。”
纳布拉说，没有一种模型是完美的，目前他们的模型要求医疗服务提供者快速编辑和批准转录的记录，但这种情况可能会改变。
信息科学助理教授 Allison Koenecke 是最近一项研究的作者，该研究发现了语音到文本转录工具中存在幻觉，她于 2024 年 2 月 2 日星期五在纽约州伊萨卡康奈尔大学的办公室里工作。
隐私问题
由于患者与医生的会面是保密的，因此很难知道人工智能生成的记录对他们有何影响。
加州议员丽贝卡·鲍尔-卡汉 (Rebecca Bauer-Kahan)表示，今年早些时候，她带着一个孩子去看医生，并拒绝签署该医疗网络提供的一份表格，该表格要求她允许将咨询音频分享给包括微软 Azure 在内的供应商，微软 Azure 是 OpenAI 最大投资者运营的云计算系统。她说，鲍尔-卡汉不希望如此私密的医疗对话被分享给科技公司。
“该法案明确规定营利性公司有权获得这项权利，”代表旧金山郊区部分地区的州议会民主党人鲍尔-卡汉说。“我当时的反应是‘绝对不行’。”
约翰缪尔健康中心发言人本·德鲁 (Ben Drew) 表示，该医疗系统遵守州和联邦隐私法。

账号		自动登录	找回密码
密码			立即注册