算法让机器人更接近“凭直觉行事”

Josiah02 · 发表于 2024-9-12 15:08:27

赫特福德大学的研究人员开发出了一种新算法，可以让机器人更直观地运作，即利用环境作为指导做出决策。
其原理是，机器人代理通过算法创建自己的目标。
该算法首次将不同的目标设定方法统一在一个与物理直接相关的概念之下，并且进一步使这种计算变得透明，以便其他人可以研究和采用它。
该算法的原理与著名的混沌理论相关，因为该方法使代理成为“系统动力学混沌的主人”。
这项研究发表在《PRX Life》杂志上。赫特福德郡的研究人员探索了机器人“动机模型”，即使在没有明确奖励信号的情况下，也能模仿人类和动物的决策过程。
该研究引入了人工智能（AI）公式，可以计算出机器人无需直接指令或人工输入就能决定未来行动的方法。
计算机科学教授兼资深作者丹尼尔·波拉尼 (Daniel Polani) 解释说：“从应用意义上讲，这可能意味着，例如，让机器人自己玩耍和操纵物体，而无需被告知这样做。
“通过鼓励更多‘自然’的行为和互动，它可以通过增强机器人学习与人类和其他机器人互动的方式。
“这有进一步的应用——例如，半自动机器人在人类操作员无法触及的情况下的生存行为，例如在地下或行星际位置。”
有一种理论认为，人类和动物都存在“内在动机”，即行为仅由生物与环境之间的互动所驱动，而非由食物等特定的习得奖励所驱动。本文成功地将“内在动机”理论转化为机器人代理可以使用的理论。
波拉尼教授补充道：“这项工作令人兴奋，因为我们现在可以在机器人中实现一种类似于帮助人类和动物在没有先前经验的情况下解决新问题的机制。
“我们希望在此基础上，在未来开发出更多具有更直观流程的类人机器人。这为拥有与我们类似决策过程的更复杂机器人开辟了巨大的机会。”
本文所依据的理论称为“赋权最大化”，赫特福德郡大学已经开发多年。该理论表明，通过增加未来结果的范围，机器人在更长远的未来也会有更好的选择。重要的是，这种方法取代了传统的奖励系统（例如食物信号），因此可能消除了这种奖励系统。
虽然赋权最大化已显示出前景，但它尚未被充分理解或广泛应用。大多数研究过去依赖于模拟，而精细计算复杂系统所需的信息，理论仍然具有挑战性。
然而，这项最新的创新研究旨在解释为什么基于赋权的动机能够创造出类似于生物体的行为，从而有可能产生更多具有内在动机的机器人；而且它还提供了一种计算这些动机的显著改进的方法。
波拉尼教授表示，接下来的步骤是利用这种突破性的算法让机器人探索更多的世界，发展直接学习能力，识别和磨练新的技能，从而在现实世界中发挥它们的价值。

账号		自动登录	找回密码
密码			立即注册