Josiah02 发表于 2024-8-28 21:50:52

一种基于数据扩展的隐性语篇关系分类的简单新方法

话语关系分类是话语分析的一项基本任务,对于理解文本的结构和联系至关重要。隐性话语关系分类旨在确定相邻句子之间的关系,是话语关系分类中最具挑战性的任务,因为它缺乏显性的话语连接词作为语言线索和足够的带注释的训练数据。
一种有希望的方法是在易于收集的显性话语关系的基础上扩展隐性话语关系的训练数据。然而,扩展的数据往往会在论元对选择和话语关系意义分配过程中引入噪音,导致改进有限。
为解决上述挑战,宋伟团队提出了一种新的显式数据扩展方法。他们于 2024 年 8 月 15 日在《计算机科学前沿》上发表了他们的研究成果。
为了获得合适的论元对,提出了论元对类型分类(APTC)任务。APTC是一种可以区分显式和隐式论元对的分类器,并且仅选择那些与自然隐式论元对相似的显式论元对进行数据扩展,因此该方法可以过滤掉嘈杂的和不适合进行数据扩展的论元对。
为了注释扩展论元对的意义,提出了一种简单的标签平滑策略。不是为篇章连接词分配单一的主导意义,而是根据该篇章连接词的每个意义的分布得出平滑的意义。
这可以减少可能与参数之间的实际关系不匹配的嘈杂语义标签的影响。
尽管该方法比较简单,但在 PDTB 2.0 和 PDTB 3.0 上的评估结果证明了该方法的有效性。与以前的数据扩展方法相比,它可以持续带来改进,并且在数据集上以及在顶级类别和二级类型意义上都获得与最新模型相媲美的性能。
判别式显性论元对选择和标签平滑策略相互补充、相互依赖,以达到最佳效果。结果与分析证实,所提方法扩展了基于数据扩展的隐性话语关系分类。
更多信息: Wei Song 等人,隐式话语关系分类的判别性显式实例选择,计算机科学前沿(2023)。DOI :10.1007/s11704-023-3058-2

页: [1]
查看完整版本: 一种基于数据扩展的隐性语篇关系分类的简单新方法