研究展示了数据分析中更好分组的新方法
卡内基梅隆大学和加州大学伯克利分校的研究人员开发了一种新方法来改进计算机组织和分析大型数据集的方式。这一进步提高了从知识图谱中提取信息的能力,影响了分析社交网络和客户行为的能力。卡内基梅隆大学泰珀商学院卡内基博世运筹学副教授本杰明莫斯利 (Benjamin Moseley) 领导的一项研究中解释了新方法,该方法可以更有效地将相似的物品归为一组,同时将不同的物品分开。
该论文将发表在 2024 年 7 月举行的国际自动机、语言和编程研讨会ICALP上。
莫斯利说: “我们的新算法可以显著增强我们分析大型数据集的方式,无论是通过准确检测用户社区来改善社交媒体平台,还是通过更好地理解基因相互作用来推进医学研究。”
他指出,商业分析的一个关键趋势是能够使用知识图谱,知识图谱可以显示客户行为或业务流程等信息。本文重点介绍聚类,这是一种从这些图谱中提取信息的常用方法。本研究中的新方法可以更有效地将相似的项目分组,同时将不同的项目区分开来。
由于不一致和信息量巨大,正确地组织大量数据是一项挑战。莫斯利和他的团队专注于创建一种可以快速准确地对数据点进行分组的算法。他们使用了由节点(代表数据点)和边(代表节点之间的连接)组成的数学结构。该算法通过评估这些连接并确定对相似节点进行分组的最佳方式来工作。
结果表明,他们的算法比以前的方法更快、更准确。它可以更有效地处理大型数据集,使其适用于实际应用。
加州大学伯克利分校理论计算机科学研究科学家萨米·戴维斯表示:“我们的新方法比以往任何方法都更能减少数据分组时的错误。我们的方法也更加灵活,因为我们可以以一种同时适用于许多不同目标的方式对数据进行分组。”
研究人员计划继续完善他们的方法并探索其在不同领域的应用。这项正在进行的工作可能会带来更准确、更有见地的数据分析。
泰珀商学院算法、组合学和优化博士项目博士生 Heather Newman也是本文合著者之一。
页:
[1]