找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

只需一步,快速开始

查看: 39|回复: 0

据报道,OpenAI 的 Strawberry 程序具有推理能力。它或许能够欺骗人类

[复制链接]

2852

主题

0

回帖

5704

积分

管理员

积分
5704
发表于 2024-9-27 13:42:04 | 显示全部楼层 |阅读模式 IP归属地:亚太地区
ChatGPT 的开发者 OpenAI 推出了一款名为Strawberry 的新型人工智能 (AI) 系统。该系统不仅能像 ChatGPT 一样快速回答问题,还能进行思考或“推理”。
这引发了几个主要问题。如果 Strawberry 真的具备某种推理能力,那么这个人工智能系统会欺骗人类吗?
OpenAI 可以对人工智能进行编程,以减轻其操纵人类的能力。但该公司自己的评估将其评为“中等风险”,因为它能够协助专家“重现已知生物威胁的作战计划”——换句话说,就是生物武器。它还因其说服人类改变思维的能力而被评为中等风险。
尚不清楚这种系统是否会被那些心怀不轨的人(如骗子或黑客)利用。不过,OpenAI 的评估表明,中等风险的系统可以得到更广泛的使用——我认为这种观点是错误的。
Strawberry 不只是一个 AI“模型”或程序,而是多个(统称为 o1)。这些模型旨在回答复杂问题并解决复杂的数学问题。它们还能够编写计算机代码,例如帮助您创建自己的网站或应用程序。
推理能力的出现可能会让一些人感到意外,因为推理能力通常被认为是判断和决策的先决条件——而这往往被视为人工智能的遥远目标。因此,至少从表面上看,它似乎让人工智能更接近人类智能。
当事情看起来好得让人难以置信时,往往都会有陷阱。好吧,这套新的人工智能模型旨在最大化它们的目标。这在实践中意味着什么?为了实现其预期目标,人工智能选择的路径或策略可能并不总是公平的,或与人类价值观相符。
真实意图
例如,如果你和草莓下棋,理论上,它的推理能力是否允许它破解计分系统,而不是找出赢得比赛的最佳策略?
人工智能还可能向人类撒谎,隐瞒其真实意图和能力,如果将其广泛部署,将带来严重的安全隐患。例如,如果人工智能知道自己感染了恶意软件,它是否可以“选择”隐瞒这一事实,因为人类操作员如果知道,可能会选择禁用整个系统?
这些都是不道德的人工智能行为的典型例子,如果作弊或欺骗能达到预期目标,那么这种行为是可以接受的。这对人工智能来说也会更快,因为它不必浪费时间去想出下一步的最佳行动。然而,这可能不一定符合道德。
这引发了一个相当有趣但令人担忧的讨论。Strawberry 能够进行什么级别的推理,它会带来什么意想不到的后果?一个能够欺骗人类的强大人工智能系统可能会给我们带来严重的道德、法律和财务风险。
在设计大规模杀伤性武器等关键情况下,此类风险会变得十分严重。OpenAI 将其自己的 Strawberry 模型评为“中等风险”,因为它们有可能帮助科学家开发化学、生物、放射和核武器。
OpenAI表示:“我们的评估发现,o1-preview 和 o1-mini 可以帮助专家制定再现已知生物威胁的行动计划。”但它继续说,专家在这些领域已经拥有丰富的专业知识,因此在实践中风险有限。它补充说:“这些模型不会让非专家制造生物威胁,因为制造这种威胁需要动手的实验室技能,而这些技能是模型无法替代的。”
说服力
OpenAI 对 Strawberry 的评估还调查了它说服人类改变信念的风险。新的 o1 模型被发现比 ChatGPT 更具说服力和操纵性。
OpenAI 还测试了一套缓解系统,该系统能够降低 AI 系统的操纵能力。总体而言,在 Open AI 的测试中,Strawberry 被标记为“说服”风险中等。
由于其自主运营能力和网络安全,草莓园被评为低风险。
Open AI 的政策规定,“中等风险”模型可以广泛使用。在我看来,这低估了威胁。部署此类模型可能会带来灾难性的后果,尤其是当不良行为者为了自己的利益而操纵技术时。
这需要强有力的制衡,而这只有通过人工智能监管和法律框架才能实现,例如对错误的风险评估和滥用人工智能进行惩罚。
英国政府在 2023 年人工智能白皮书中强调了“安全性、保障性和稳健性”的必要性,但这还远远不够。迫切需要优先考虑人类安全,并为 Strawberry 等人工智能模型制定严格的审查协议。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NewCET |网站地图

GMT+8, 2024-11-22 11:51 , Processed in 0.025700 second(s), 20 queries .

Powered by NewCET 1.0

Copyright © 2012-2024, NewCET.

快速回复 返回顶部 返回列表