Josiah02 发表于 2024-7-29 07:55:04

发现数据异常的新算法优于现有软件

  华盛顿州立大学研究人员开发的一种算法可以比当前的异常检测软件更好地发现数据异常,包括流数据。
  这项研究发表在《人工智能研究杂志》上,为人工智能方法做出了根本性的贡献,可应用于需要在大量数据中快速发现异常的许多领域,例如网络安全、电网管理、错误信息和医疗诊断。
  能够更好地发现异常意味着能够更容易地发现欺诈、医疗环境中的疾病或重要的不寻常信息,例如小行星的信号与其他恒星的光重叠。
  负责指导这项工作的 Huie-Rogers 计算机科学副教授 Jana Doppa 说:“这项工作展示了人工智能和人类如何协同解决异常发现问题的进展。”
  “有了所有这些生成式人工智能技术,就有了如此多的数据,其中包括错误信息,如果你想让人类去处理所有这些数据,那是不可能的,因为数据量太大了。如果你的人力资源有限,又想快速检测出错误信息之类的东西,你就需要算法来优先考虑哪些项目应该被标记。”
  异常检测带来了一些传统 AI 问题中没有的挑战。与正常数据相比,异常的数量非常少——通常不到 2%。此外,异常数据和正常数据之间可能没有太大区别。
  “所以,这就像大海捞针一样,”多帕说。“而且在很多领域你甚至不知道要寻找什么针。”
  另一个问题是,如果数据量巨大,人工智能往往会发现太多候选异常,而无法传递给人们进行检查。
  “每当出现这些误报时,就会浪费大量的人类时间,我们希望尽量减少这种情况,”博士后研究员兼主要作者 Shubhomoy Das 说道。“我们如何才能利用来自人类的最少反馈来调整异常检测器,以便随着时间的推移误报率下降,并发现越来越多样的异常?”
  作为这项工作的一部分,研究人员提供了新的理论和实证研究结果,解释了为什么一组计算机模型能够很好地发现异常。他们发现,与没有反馈的系统相比,只需少量的逐步反馈,人工智能算法就能学得更好,发现更多不同的异常。人类需要对候选异常进行解释,才能理解为什么人工智能选择它们进行标记。
  “可解释性或可说明性的概念很重要,”博士生兼合著者 Rakibul Islam 说道。“我们认为现有文献中很大程度上缺少了这一点。”
  研究人员利用他们的新发现开发了一种算法,可以批量查看异常情况,从而提高了发现各种异常情况的能力。因此,在信用卡数据异常的情况下,该算法可以发现不同类型的异常行为,例如某人异常昂贵的购买行为和/或在奇怪地点进行的购买行为。
  与目前的人工智能模型不同,研究人员开发的算法能够处理流数据,这在许多实际应用中很常见。他们的算法可以检测和量化数据分布中的漂移,然后采取纠正措施。
  多帕说:“当数据流中出现时,发现异常的问题研究较少。”
  研究人员的计算机代码和数据是公开的,他们现在计划在现实系统中部署他们的算法以测量其准确性和可用性。

页: [1]
查看完整版本: 发现数据异常的新算法优于现有软件