机器学习技术可预测供应链中可能出现的会计欺诈行为
随着会计欺诈者的技术越来越高明,欺诈检测需要加强。值得庆幸的是,一组研究人员发明了一种新的机器学习“侦探”,它不仅可以分析单个公司的欺诈行为,还可以预测整个供应链和行业中可能发生的欺诈行为。8 月 28 日,《大数据挖掘与分析》杂志发表了一篇描述该团队方法的论文。
财务报表欺诈,或更常见的会计欺诈,可能是一种不太常见的企业欺诈形式,但它是迄今为止世界上最昂贵的犯罪。也许最著名的白领犯罪案例可以被视为会计欺诈,即企业操纵其财务报表或其他估值数据上的数字,使其看起来比实际更有利可图。
美国能源公司安然的倒闭,是美国历史上最大的破产案,就是安然与会计师事务所合谋伪造账目所致;2008年,雷曼兄弟因无力偿债而宣布破产,其通过资产负债表欺诈隐瞒了约500亿美元的债务;2010年代末,美国投资顾问伯纳德·麦道夫成功骗取客户高达650亿美元。
财务报表欺诈不仅损害了投资者的利益,还可能导致数十万个工作岗位流失、社区遭到破坏,在最极端的情况下,欺诈还会通过连锁反应威胁到国家经济的稳定。
尽管此类欺诈行为构成威胁,但当局仍然很难发现。报告期结束前,一家公司的业绩突然飙升,或者竞争对手的销售增长迅速而竞争对手的销售却依然低迷,这些危险信号可能只是运气好或产品更优质造成的。因此,几十年来,法务审计师一直使用统计分析来发现操纵行为。
但此类工作需要耗费大量人力,并需要搜集大量数据。因此,当局往往依赖随机审计,但这意味着大多数公司大多数时候都不受检查。
“更糟糕的是,近年来,诈骗者所采用的技术越来越复杂,”该论文的第一作者、西安交通大学软件工程学院和智能网络与网络安全重点实验室副教授王晨旭说。“这是当局和诈骗者之间永无休止的数学军备竞赛。”
“我们需要一种有效、准确的算法来自动识别会计欺诈,从而告别随机审计的时代。”西安交通大学的王梦琴说道。
一些专门研究该主题的数学家和计算机科学家利用机器学习在这方面取得了一些成功。但到目前为止,这种方法仅应用于个别公司。
“这忽略了不同公司之间往往错综复杂的关系,而这些关系也可能是欺诈的迹象,”团队成员之一、来自香港中文大学深圳高等金融研究院的龙毅表示。“与一家公司合谋进行财务报表欺诈的会计师事务所,更有可能与其他公司进行欺诈活动。”
会计欺诈关系不仅仅存在于会计师事务所和其客户之间。会计欺诈行为可以蔓延至供应链的上下游,甚至在行业间横向蔓延。
但要整合一家公司以外的数据,就意味着计算成本相应增加。此外,现有的机器学习方法在用于训练计算机模型如何将某事物归类为欺诈的样本方面存在严重不平衡,因为正常的非欺诈样本数量远远超过实际欺诈案例。这种不平衡可能导致计算机模型出现偏差,优先考虑多数类,即非欺诈案例,从而难以准确检测欺诈活动。
为了克服所有这些挑战,研究团队开发了一种机器学习技术,结合图论领域的数学方法。
他们设计的尖端人工智能金融欺诈侦探涉及一个图,这是一种以数学方式表示不同公司、个人和产品(描述为节点)之间的联系或关系(描述为边)的结构。多关系图允许多种类型的边,允许表示节点之间的各种关系,并提供对它们之间联系复杂性的更全面表示。
侦探本身名为 FraudGCN,是一个图卷积网络(简称 GCN),这是一种用于处理图结构数据的神经网络。与处理图像等网格状数据的传统神经网络不同,GCN 可以处理以图形式表示的数据。
FraudGCN 本身构建了一个多关系图,代表各种行业联系、供应链环节和共享会计师事务所审计实践,并通过这样做,捕获由这些关系产生的丰富信息,特别是图中节点的特定“邻域”中发现的细节。通过汇总此类信息,FraudGCN 不仅增强了识别表明现有可能存在欺诈活动的模式的能力,而且还预测了这些欺诈活动可能出现的位置。
最后,与以往的机器学习辅助欺诈检测的努力不同,FraudGCN 能够处理新节点的添加,而无需重新训练模型,从而增强了其适应性和可扩展性。
该团队在中国上市公司的真实数据集上试用了 FraudGCN 来评估其性能,结果发现它比最先进的方法高出 3.15% 至 3.86%。
展望未来,该团队希望改进他们的方法,使其能够适用于中型企业,而不仅仅是大型企业。
页:
[1]