【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships

KLMo:建模细粒度关系的知识图增强预训练语言模型
(KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships)

论文地址:https://aclanthology.org/2021.findings-emnlp.384.pdf
  • 摘要
知识图谱(KG)中实体之间的交互作用为语言表征学习提供了丰富的知识 。然而,现有的知识增强型预训练语言模型(PLMS)只关注实体信息,而忽略了实体之间的细粒度关系 。在这项工作中,我们建议将KG(包括实体和关系)纳入语言学习过程中,以获得KG增强的预训练语言模型 , 即KLMo 。具体来说,设计了一种新的知识聚合器来显式建模文本中的实体片段(entity span)和上下文KG中的所有实体和关系之间的交互 。利用一个关系预测目标,通过远程监督来合并关系信息 。进一步利用链接目标的实体来将文本中的实体跨链接到KG中的实体 。这样,结构化的知识就可以有效地集成到语言表示形式中 。实验结果表明,与最先进的知识增强型PLMs相比,KLMo在实体类型和关系分类等知识驱动任务上取得了很大的进步 。
  • 01引言
带有实体和关系的知识图(KG)为语言学习提供了丰富的知识(Wang et al.,2017,2014) 。最近,研究人员探索了将KG信息纳入PLMs中来增强语言表征,比如ERNIE-THU (Zhang et al., 2019), WKLM (Xiong et al.,2019) , KEPLER (Wang et al., 2019), KnowBERT (Peters et al., 2019), BERT-MK (He et al., 2019) and KALM (Rosset et al., 2020), .但是,它们只利用实体信息,而忽略了实体之间的细粒度关系 。实体间关系的细粒度语义信息对语言表示学习也是至关重要的 。
2001年 , 郎朗参加了BBC的毕业舞会,但他在中国直到2012年在《幸福三重奏》中亮相才很受欢迎 。
【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships

文章插图
图1:将知识合并到PLMs中的一个示例 。KG中的关系对于正确预测Trio of Happiness的类型至关重要 。
以图1为例 , 实体类型 , 没有明确地知道细粒度Lang Lang和Trio of Happiness的关系是客人(Guest),这是不同于关系表演者(Performer)LangLang和BBC Proms,不可能正确预测Trio of Happiness作为电视节目的类型,因为输入句子字面上意味着Trio of Happiness和BBC Proms属于同一类型 。KG中实体之间的细粒度关系为实体提供了特定的约束,从而在知识驱动任务的语言学习中发挥重要作用 。为了明确地将KG中的实体和细粒度关系合并到PLMs中,我们面临的一个主要挑战是文本-知识对齐(TKA)问题:很难为文本和知识的融合进行token-关系和token-实体对齐 。为了解决这个问题,我们提出了KG增强的预训练语言模型(KLMo)来将KG(即实体和细粒度关系)集成到语言表示学习中 。KLMo的主要组件是一个知识聚合器,它负责从两个单独的嵌入空间即token嵌入空间和KG嵌入空间,进行文本和知识信息的融合 。知识聚合器通过实体片段级的交叉KG注意力机制,建模文本中实体片段和所有实体和关系之间的交互,使tokens注意KG中高度相关的实体和关系 。基于KG增强的token表示 , 利用关系预测目标,基于KG的远程监督,预测文本中每对实体的关系 。关系预测和实体链接目标是将KG信息集成到文本表示中的关键 。
我们在两个中国知识驱动的自然语言处理任务上进行了实验,即实体类型和关系分类 。实验结果表明 , 通过充分利用包含实体和细粒度关系的结构化KG , KLMo比BERT和现有的知识增强PLMs有了很大的改进 。我们还将发布一个中国的实体类型数据集,用于评估中国的PLMs 。
  • 02模型描述
如图2所示,KLMo被设计为一个基于多层Transformer的(Vaswani et al. , 2017)模型 , 该模型接受一个token序列及其上下文KG中的实体和关系作为输入 。文本(token)序列首先由一个基于多层Transformer的文本编码器进行编码 。文本编码器的输出进一步被用作知识聚合器的输入 , 该知识聚合器将实体和关系的知识融入到文本(token)序列中,以获得KG增强的token表示 。基于KG增强表示,将新的关系预测和实体链接目标联合优化为预训练目标 , 有助于将KG中的高度相关的实体和关系信息合并到文本表示中 。
【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships

文章插图
图2:模型体系结构的概述 。
2.1知识聚合器
如图2所示,知识聚合器被设计为一个M层知识编码器,将KG中的知识集成到语言表示学习中 。它接受token序列的隐藏层和KG中实体和关系的知识嵌入作为输入,并融合来自两个单独嵌入空间的文本和KG信息 。它接受token序列的隐藏层和KG中实体和关系的知识嵌入作为输入,并融合来自两个单独嵌入空间的文本和KG信息 。知识聚合器包含两个独立的多头注意力机制:token级自注意力和知识图谱注意力(Veliˇckovi‘cetal.,2017),它对输入文本和KG进行独立编码 。实体表示是通过汇集一个实体片段中的所有token来计算的 。然后,聚合器通过实体级的交叉KG注意力,将文本中的实体片段与上下文KG中的所有实体和关系之间的交互进行建模,从而将知识融入到文本表示中 。

推荐阅读