【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships _生活百科

KLMo：建模细粒度关系的知识图增强预训练语言模型
(KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships)

论文地址：https://aclanthology.org/2021.findings-emnlp.384.pdf

摘要

知识图谱（KG）中实体之间的交互作用为语言表征学习提供了丰富的知识。然而，现有的知识增强型预训练语言模型（PLMS）只关注实体信息，而忽略了实体之间的细粒度关系。在这项工作中，我们建议将KG（包括实体和关系）纳入语言学习过程中，以获得KG增强的预训练语言模型，即KLMo 。具体来说，设计了一种新的知识聚合器来显式建模文本中的实体片段（entity span）和上下文KG中的所有实体和关系之间的交互。利用一个关系预测目标，通过远程监督来合并关系信息。进一步利用链接目标的实体来将文本中的实体跨链接到KG中的实体。这样，结构化的知识就可以有效地集成到语言表示形式中。实验结果表明，与最先进的知识增强型PLMs相比，KLMo在实体类型和关系分类等知识驱动任务上取得了很大的进步。

01引言

带有实体和关系的知识图（KG）为语言学习提供了丰富的知识（Wang et al.，2017,2014）。最近，研究人员探索了将KG信息纳入PLMs中来增强语言表征，比如ERNIE-THU (Zhang et al., 2019), WKLM (Xiong et al.,2019) , KEPLER (Wang et al., 2019), KnowBERT (Peters et al., 2019), BERT-MK (He et al., 2019) and KALM (Rosset et al., 2020), .但是，它们只利用实体信息，而忽略了实体之间的细粒度关系。实体间关系的细粒度语义信息对语言表示学习也是至关重要的。
2001年，郎朗参加了BBC的毕业舞会，但他在中国直到2012年在《幸福三重奏》中亮相才很受欢迎。

【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships

文章插图
图1：将知识合并到PLMs中的一个示例。KG中的关系对于正确预测Trio of Happiness的类型至关重要。
以图1为例，实体类型，没有明确地知道细粒度Lang Lang和Trio of Happiness的关系是客人（Guest），这是不同于关系表演者（Performer）LangLang和BBC Proms，不可能正确预测Trio of Happiness作为电视节目的类型，因为输入句子字面上意味着Trio of Happiness和BBC Proms属于同一类型。KG中实体之间的细粒度关系为实体提供了特定的约束，从而在知识驱动任务的语言学习中发挥重要作用。为了明确地将KG中的实体和细粒度关系合并到PLMs中，我们面临的一个主要挑战是文本-知识对齐（TKA）问题：很难为文本和知识的融合进行token-关系和token-实体对齐。为了解决这个问题，我们提出了KG增强的预训练语言模型（KLMo）来将KG（即实体和细粒度关系）集成到语言表示学习中。KLMo的主要组件是一个知识聚合器，它负责从两个单独的嵌入空间即token嵌入空间和KG嵌入空间，进行文本和知识信息的融合。知识聚合器通过实体片段级的交叉KG注意力机制，建模文本中实体片段和所有实体和关系之间的交互，使tokens注意KG中高度相关的实体和关系。基于KG增强的token表示，利用关系预测目标，基于KG的远程监督，预测文本中每对实体的关系。关系预测和实体链接目标是将KG信息集成到文本表示中的关键。
我们在两个中国知识驱动的自然语言处理任务上进行了实验，即实体类型和关系分类。实验结果表明，通过充分利用包含实体和细粒度关系的结构化KG ， KLMo比BERT和现有的知识增强PLMs有了很大的改进。我们还将发布一个中国的实体类型数据集，用于评估中国的PLMs 。

02模型描述

如图2所示，KLMo被设计为一个基于多层Transformer的（Vaswani et al. ， 2017）模型，该模型接受一个token序列及其上下文KG中的实体和关系作为输入。文本（token）序列首先由一个基于多层Transformer的文本编码器进行编码。文本编码器的输出进一步被用作知识聚合器的输入，该知识聚合器将实体和关系的知识融入到文本（token）序列中，以获得KG增强的token表示。基于KG增强表示，将新的关系预测和实体链接目标联合优化为预训练目标，有助于将KG中的高度相关的实体和关系信息合并到文本表示中。

文章插图
图2：模型体系结构的概述。
2.1知识聚合器
如图2所示，知识聚合器被设计为一个M层知识编码器，将KG中的知识集成到语言表示学习中。它接受token序列的隐藏层和KG中实体和关系的知识嵌入作为输入，并融合来自两个单独嵌入空间的文本和KG信息。它接受token序列的隐藏层和KG中实体和关系的知识嵌入作为输入，并融合来自两个单独嵌入空间的文本和KG信息。知识聚合器包含两个独立的多头注意力机制：token级自注意力和知识图谱注意力（Veliˇckovi‘cetal.，2017），它对输入文本和KG进行独立编码。实体表示是通过汇集一个实体片段中的所有token来计算的。然后，聚合器通过实体级的交叉KG注意力，将文本中的实体片段与上下文KG中的所有实体和关系之间的交互进行建模，从而将知识融入到文本表示中。