人工智能软件实时叙述视障人士周围环境

Josiah02 · 发表于 2024-10-11 16:48:22

通过能够叙述相机记录内容的新软件，盲人或视力低下人士很快就能接触到色彩和纹理的世界。
该工具名为 WorldScribe，由密歇根大学的研究人员设计，并将在匹兹堡举行的 2024 年ACM 用户界面软件和技术研讨会上展出。
该研究的题目为《WorldScribe：迈向情境感知的实时视觉描述》，发表在arXiv预印本服务器上。
该工具使用生成式人工智能 (GenAI) 语言模型来解释摄像头图像并实时生成文本和音频描述，以帮助用户更快地了解周围环境。它可以根据用户的命令或物体在摄像头画面中出现的时间长度调整细节级别，音量会自动适应嘈杂的环境，例如拥挤的房间、繁忙的街道和嘈杂的音乐。
该工具将于美国东部时间 10 月 14 日下午 6:00 进行演示，而对该工具的研究 — — 组织者认为它是会议上最好的工具之一 — — 将于美国东部时间 10 月 16 日下午 3:15 进行展示。
“对于我们盲人来说，这真的可以彻底改变我们在日常生活中与世界打交道的方式，”参与 WorldScribe 试验研究的先天失明的 Sam Rau 说道。
“我对视觉没有任何概念，但当我尝试使用这个工具时，我看到了真实世界的景象，我对所有我无法获得的颜色和纹理感到兴奋，”劳说。
“作为盲人，我们只能一点一点地拼凑周围发生的事情，要拼凑出一幅更大的图景需要花费大量的脑力。但这个工具可以帮助我们立即获得信息，在我看来，它帮助我们专注于做人，而不是弄清楚发生了什么。我不知道我是否能用语言表达出这对我们来说是多么大的奇迹。”
当用户在房间里缓慢移动时，WorldScribe 将使用 GPT-4 创建物体的丰富描述。当被要求帮忙寻找笔记本电脑时，该工具将优先提供房间内所有笔记本电脑的详细描述。
在试验研究期间，劳戴上装有智能手机的耳机，在研究实验室里走来走去。手机摄像头将图像无线传输到服务器，服务器几乎立即生成了摄像头框架内物体的文字和音频描述：桌子上的一台笔记本电脑、一堆文件、一台电视和附近墙上挂着的画作。
描述不断变化以匹配摄像头视野范围内的任何事物，优先考虑距离 Rau 最近的物体。快速看一眼桌子，就会得到一个简单的单词描述，但长时间观察就会得到关于放在上面的文件夹和文件的信息。
该工具可以通过在三种不同的 AI 语言模型之间切换来调整其描述的细节级别。YOLO World 模型可以快速生成短暂出现在相机画面中的物体的非常简单的描述。在画面中停留时间较长的物体的详细描述由 ChatGPT 背后的模型 GPT-4 处理。另一个模型 Moondream 提供了中等程度的细节。
“许多现有的利用人工智能的辅助技术专注于特定任务或需要某种形式的逐个交互。例如，你拍一张照片，然后得到一些结果，”计算机科学与工程助理教授、这项研究的通讯作者郭安宏说。
郭说： “为现场体验提供丰富而详细的描述对于无障碍工具来说是一个巨大的挑战。我们看到了一个机会，可以利用功能日益强大的人工智能模型实时创建自动化和自适应的描述。”
由于依赖 GenAI，WorldScribe 还可以响应用户提供的任务或查询，例如对用户要求该工具查找的任何物体的描述进行优先排序。然而，一些研究参与者指出，该工具在检测某些物体（例如滴管瓶）时遇到困难。
劳表示，就目前情况而言，该工具对于日常使用来说仍然有点笨重，但他表示，如果它可以集成到智能眼镜或其他可穿戴设备中，他会每天使用它。
研究人员在密歇根大学创新合作伙伴的帮助下申请了专利保护，并正在寻求合作伙伴帮助完善这项技术并将其推向市场。
郭先生还是密歇根大学信息学院的信息学助理教授。

账号		自动登录	找回密码
密码			立即注册