Josiah02 发表于 2024-7-15 08:30:52

DeepMind 演示了一款能够基于情境引导参观办公楼的机器人

  谷歌 DeepMind 的机器人专家和人工智能专家团队演示了一款能够根据情境引导参观其办公室的机器人。他们在arXiv预印本服务器上发布了一篇介绍其工作的论文以及演示视频。
  在过去十年中,人工智能应用取得了长足进步,ChatGPT 等法学硕士如今已为全球用户所熟知。在这项新研究中,研究团队通过 Gemini 1.5 Pro 为 RT-2 机器人赋予了人工智能功能,并利用此功能让机器人执行复杂的活动。
  机器人可以听取引导人员的指令,解析请求并将其转化为行为。例如,一位研究人员要求机器人将其带到办公室中可以书写或绘画的地方。机器人思考了大约 30 秒,然后引导该人员到其中一间办公室的墙上贴有白板的地方。
  研究人员解释说,机器人之所以能够执行这样的任务,是因为它的 Gemini 1.5 Pro 应用程序经过训练,可以使用它的长上下文窗口来了解 850 平方米办公室工作空间的布局,因为它在观看办公室各个位置的视频时会收集数据。
  研究人员将这种学习体验描述为带有演示游览的多模式教学导航——当机器人观看视频时,它能够同时处理办公室场景的不同部分,从而产生联想。
  通过添加语音和文本处理以及其他 AI 功能,DeepMind 团队还能够让机器人具备推理处理能力。例如,一位研究人员询问机器人冰箱里是否还有他最喜欢的饮料。机器人注意到研究人员坐着的地方附近有几个空的可乐罐,并利用这些信息猜测可乐是他最喜欢的饮料。然后,它自己滚到冰箱里,看看里面是否有可乐罐。然后它自己滚回来并报告它发现了什么。

页: [1]
查看完整版本: DeepMind 演示了一款能够基于情境引导参观办公楼的机器人