研究人员提倡开放和标准化的人类流动数据
尽管智能手机产生了大量的人类移动数据,但缺乏标准化的格式、协议和受隐私保护的开源数据集,阻碍了城市规划、交通设计、公共卫生、应急响应和经济研究等各个领域的创新。缺乏既定的基准进一步使评估进展和分享最佳实践的努力变得复杂。纽约大学坦顿分校城市科学与进步中心 (CUSP) 和技术管理与创新系的助理教授 Takahiro Yabe 最近与一个研究团队合作——Massimiliano Luca(Bruno Kessler 基金会)、Kota Tsubouchi(LY 公司)、Bruno Lepri(Bruno Kessler 基金会)、Marta C. Gonzalez(加州大学伯克利分校)和 Esteban Moro(东北大学)——倡导开放和标准化人类流动数据的必要性。
他们的评论文章发表在《自然计算科学》杂志上,以该论文的几位作者开发的最近发布的开源、匿名、大规模人类流动数据集YJMob100K 为基础。
Yabe 表示:“创建 YJMob100K 数据集和相关的 HuMob Challenge 2024 是因为我们担心类似的人类流动性数据集仅限于少数研究人员和行业组织。”
揭秘人类流动数据预处理的复杂性
使用手机数据追踪从出发地到目的地的旅程并不简单。数据可能会因使用的应用程序而有很大差异,并且数据集可能无法捕获所有交通方式。定义、分类和数据标签的不一致可能会导致偏差。
例如,定义什么是“停留”——无论是停留 5 分钟、30 分钟还是 1 小时——可能有些主观。作者指出:“为了检测移动轨迹中的停留,数据科学家需要定义任意超参数,例如在停留处停留的最短分钟数和允许从停留中心移动的最大距离。”
“由于每个预处理步骤都需要几个超参数,这些参数的选择稍有变化就可能导致处理后的人类移动数据集有很大不同。”
预处理人口流动数据对于保护个人隐私至关重要。然而,此过程中使用的方法通常是保密的,从而产生了“黑匣子”问题,引发了人们对数据有效性和准确性的担忧。
为了解决这些问题,公司会将数据集与人口普查数据等外部来源进行比较,以评估数据集。然而,旨在引入和评估预测人类流动性的新方法的研究人员仍然面临一个重大障碍:目前没有标准的开放基准数据集。
利用 YJMob100K 数据集推进人类流动性研究
作者提出了应对这一挑战的两种策略:使用机器学习模型创建合成的、保护隐私的人类移动数据集,或通过与私人公司合作将大规模移动数据集匿名化。
YJMob100K 采用的就是后一种策略,它是由纽约大学坦顿研究中心的 Takahiro Yabe、东京大学的 Yoshihide Sekimoto 和 Kaoru Sezaki、麻省理工学院的 Esteban Moro 和 Alex Pentland 以及日本私营互联网公司 LY 株式会社的 Kota Tsubouchi 和 Toru Shimizu 合作开发的。
YJMob100K 数据集通过将位置 ping 转换为 500x500 米网格单元并将时间戳聚合为 30 分钟间隔并隐藏实际日期而实现匿名化。提供数据的个人签署了一份同意书,其中概述了位置数据收集的频率和准确性以及其预期用途。所有数据处理和分析均在公司管理的服务器上进行。
为了推广该数据集,作者于 2023 年发起了人类流动性预测挑战赛 (HuMob Challenge),目前已进入第二年。入选作品将在2024 年 10 月 29 日至 11 月 1 日在亚特兰大举行的ACM SIGSPATIAL 会议上展出。
Yabe 表示:“受到 Transformer 等自然语言处理模型进步的启发,2023 年比赛的许多参赛作品都采用了人工智能和机器学习方法。前 10 名参赛作品中有 8 篇使用了深度学习技术。来自 22 个国家的 85 多个团队和 200 名参赛者参加了比赛,热烈的反响激励我们继续参加 2024 年的比赛。今年的比赛更加先进,旨在预测缺乏数据的城市。”
作者确定了他们在未来工作中要解决的几个关键挑战。首先,他们的目标是建立创建“适合用途”基准数据集的标准,以在研究界达成共识。这涉及定义明确的数据规范指标并建立预处理的行业标准。
其次,他们认识到不同的任务需要不同类型的数据,因此建议创建一系列“适合用途”的数据集,每个数据集都针对特定的研究领域、社区和社会时空背景量身定制。这需要由相关研究社区领导的自下而上的方法,以确保数据集与其预期用途保持一致。
更多信息: Takahiro Yabe 等人,利用开放和标准化数据集增强人类流动性研究,《自然计算科学》(2024 年)。DOI :10.1038/s43588-024-00650-3
期刊信息: 自然计算科学
页:
[1]