研究人员展示了一种无需入侵运行人工智能 (AI) 模型的设备即可窃取该模型的技术。该技术的新颖之处在于,即使窃贼事先不了解支持 AI 的软件或架构,它也能奏效。
“人工智能模型很有价值,我们不希望有人窃取它们,”该论文的共同作者、北卡罗来纳州立大学电气与计算机工程副教授艾丁·艾苏 (Aydin Aysu) 表示。
“建立模型的成本很高,需要大量的计算资源。但同样重要的是,当模型泄露或被盗时,模型也更容易受到攻击——因为第三方可以研究该模型并识别任何弱点。”
“正如我们在论文中指出的那样,针对人工智能和机器学习设备的模型窃取攻击会破坏知识产权,损害模型开发者的竞争优势,并可能暴露嵌入在模型行为中的敏感数据,”该论文的第一作者、北卡罗来纳州立大学博士生 Ashley Kurian 说。
这篇论文《TPUXtract:一种详尽的超参数提取框架》在线发表在《IACR Transactions on Cryptographic Hardware and Embedded Systems》上。在这项研究中,研究人员窃取了在 Google Edge 张量处理单元 (TPU) 上运行的 AI 模型的超参数。
“实际上,这意味着我们能够确定架构和具体特征(称为层细节),我们需要复制 AI 模型,”库里安说。
“因为我们窃取了架构和层次细节,所以我们能够重建人工智能的高级功能,”Aysu 说。“然后我们利用这些信息重建了功能性人工智能模型,或者说是该模型的一个非常接近的替代品。”
研究人员在本次演示中使用了 Google Edge TPU,因为它是一款商用芯片,广泛用于在边缘设备(即现场最终用户使用的设备)上运行 AI 模型,而不是用于数据库应用程序的 AI 系统。
Kurian 表示:“这种技术可用于窃取在许多不同设备上运行的 AI 模型。只要攻击者知道他们想要窃取的设备,能够在设备运行 AI 模型时访问该设备,并能够访问具有相同规格的另一台设备,这种技术就应该有效。”
此次演示所采用的技术依赖于监测电磁信号。具体来说,研究人员在一块 TPU 芯片上放置了一个电磁探针。该探针可在 AI 处理过程中提供 TPU 电磁场变化的实时数据。
“传感器的电磁数据实际上为我们提供了人工智能处理行为的‘特征’,”库里安说。“这是最简单的部分。”
为了确定 AI 模型的架构和层次细节,研究人员将该模型的电磁特征与在同一设备(在本例中意味着另一个 Google Edge TPU)上制作的其他 AI 模型特征的数据库进行比较。
研究人员如何“窃取”他们尚未拥有签名的人工智能模型?这就是事情变得棘手的地方。
研究人员拥有一种技术,可以让他们估算目标 AI 模型中的层数。层是 AI 模型执行的一系列连续操作,每个操作的结果都会指导后续操作。大多数 AI 模型有 50 到 242 层。
Kurian 表示:“我们不会尝试重建模型的整个电磁特征,因为这需要耗费大量的计算资源,因此我们会按层进行分解。我们已经收集了来自其他 AI 模型的 5,000 个第一层特征。因此,我们会将窃取的第一层特征与我们数据库中的第一层特征进行比较,看看哪一个特征最接近。 ”
Kurian 表示:“一旦我们对第一层进行了逆向工程,我们就能知道选择哪 5,000 个签名与第二层进行比较。这个过程一直持续到我们对所有层进行了逆向工程,并有效地复制了 AI 模型。”
研究人员在演示中表明,该技术能够以 99.91% 的准确率重新创建被盗的 AI 模型。
“现在我们已经定义并证明了这个漏洞,下一步就是制定和实施对策来防范它,”Aysu 说。