确保人工智能的安全性和公平性
未来,很多以前由人类做出的决策都将交给机器。但我们真的可以信赖人工智能做出的决策吗?在敏感领域,人们希望保证决策确实是合理的,或者至少某些严重错误已被排除。维也纳技术大学和奥地利理工学院的团队现已开发出可用于验证某些神经网络是否安全且公平的方法。研究结果将于本周在加拿大蒙特利尔举行的第 36 届国际计算机辅助验证会议 ( CAV 2024 ) 上公布,会议将于 7 月 22 日至 27 日举行。
该研究项目是维也纳技术大学博士项目 Secint 的一部分,该项目开展跨学科合作研究,将机器学习、安全和隐私以及计算机科学中的形式化方法联系起来。
模仿人类的决定
众所周知,人工智能有时会犯错误。如果这只会导致人类在计算机生成的图像中一只手有六根手指,这可能不是什么大问题。
然而,维也纳技术大学逻辑与计算研究所和 AIT 数字安全中心的 Anagha Athavale 认为,人工智能也将在安全问题发挥核心作用的领域站稳脚跟:“例如,让我们想想自动驾驶汽车或用于医疗诊断的计算机系统所做的决定。”
Athavale 分析了经过训练的神经网络,这些神经网络可以将某些输入数据归类为特定类别。例如,输入可能是道路交通状况,神经网络经过训练可以决定在哪种情况下应该转向、刹车或加速。或者输入可能是银行不同客户的数据,人工智能经过训练可以决定是否应该向此人发放贷款。
公平性和稳健性
“然而,我们需要这种神经网络具备两个重要特性,”Athavale 解释道,“即稳健性和公平性。”如果神经网络是稳健的,这意味着两种仅在细节上不同的情况应该会导致相同的结果。
公平性是神经网络的另一个非常重要的属性:如果两种情况仅在一个参数上有所不同,而这个参数实际上不应该在决策中发挥作用,那么神经网络应该给出相同的结果——这个属性被称为“公平性”。
“例如,让我们想象一下神经网络用来评估信用度,”Athavale 说。“两个人的财务数据非常相似,但在性别或种族方面有所不同。这些参数不应该对信用评级产生影响。因此,系统在两种情况下都应该提供相同的结果。”
这绝对不是理所当然的:过去,事实一再证明机器学习会导致歧视——例如,仅仅用有偏见的人生成的数据来训练神经网络。因此,人工智能会自动被训练来模仿人类的偏见。
局部和全局属性
“现有的验证技术主要侧重于公平性和稳健性的局部定义,”Athavale 说。“在局部研究这些属性意味着检查一个特定的输入,看看微小的变化是否会导致不同的结果。但我们真正想要的是定义全局属性。我们希望保证神经网络始终显示这些属性,无论输入是什么。”
如果单纯地解决这个问题,似乎无法解决。两个类别之间的边界上总是存在边缘状态。在这些情况下,输入的微小变化确实可能导致不同的输出。
“因此,我们开发了一个基于置信度的系统,”Athavale 解释道。“我们的验证工具不仅检查某些属性,还会告诉我们置信度水平。在两个类别的边界处,置信度很低。在那里,如果略有不同的输入导致不同的输出,这是完全可以接受的。在输入空间的其他区域,置信度很高,结果具有全局稳健性。”
这种基于置信度的安全属性是神经网络全局属性定义方式的一个重要变化。“然而,为了全面分析神经网络,我们必须检查所有可能的输入——这非常耗时,”Athavale 说。
为了解决这个问题,需要数学技巧。Athavale 必须找到可靠地估计神经网络行为的方法,而无需使用某些数学函数,这些数学函数通常内置于神经网络中,但如果必须使用数百万次,则需要大量的计算能力。她开发了简化方法,这仍然使她能够对整个神经网络做出可靠、严格的陈述。
该方法的成功表明,没有必要盲目信任人工智能,尤其是在它做出重要决策时。严格测试神经网络并以数学可靠性保证某些属性在技术上是可能的——这对于未来人机协作来说是一个重要的成果。
页:
[1]