张奇、黄萱菁团队实现新突破 获得COLING 2022大会杰出论文奖

作者:姚舟怡、徐敬楠等摄影: 视频: 来源:《复旦》校报发布时间:2023-02-22

自然语言处理研究是用人工智能来处理、理解以及运用人类语言,因此被誉为人工智能皇冠上的明珠。而信息提取是自然语言处理的一个重要分支。然而,现有的信息提取模型往往需要针对特定标注数据集来训练模型,而忽略了大量其他的开源标注数据集。

针对以上问题,PG电子麻将胡了2怎样才能赢计算机科学技术学院自然语言处理实验室(FudanNLP)提出或可用已有的信息提取数据集,建立结构化提取任务的统一迁移学习框架。该成果汇总于“A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck”中,已被COLING 2022以长文oral形式录用,并获得大会杰出论文奖,论文第一作者为博士后周杰,指导老师为张奇教授和黄萱菁教授。

国际计算语言学会议(International Conference On Computational Linguistics,COLING)是自然语言处理和计算语言学领域的顶级会议,每两年举办一次。本次COLING会议共吸引超过2000篇投稿,最终共录用522篇长文、112篇短文,仅11篇获得杰出论文奖。

目前大部分信息提取工作都是基于不同的数据集设定其特定的模型结构,各个场景的标注规范不统一。张奇、黄萱菁团队跳脱出固定思维,尝试利用不同场景的差异,使模型博采众长,在大量的已标注数据上进行基础训练,通过迁移共享表示大大减少在新场景中的数据标注量。

该共享-特定的提示模型用于从不同格式数据集学习格式特定和共享的表示,使用统一的框架对不同格式的结构化数据集进行提取。而后,利用变分信息瓶颈来约束模型学习格式共享的表示。最终在三个标准数据集上取得了SOTA(state-of-the-art,即在该项研究任务中,目前最先进的模型)的结果。该成果将推动通用模型的建立,在减少数据标注的情况下,利用已有的结构化的标注数据进一步提高模型的性能。


制图:实习编辑:责任编辑:

相关文章