【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships( 二 ) _生活百科

Knowledge Graph Attention （知识图谱注意力机制）
由于KG中的实体和关系组成了一个图，因此在知识表示学习过程中考虑图的结构是至关重要的。我们首先通过TransE（Bordes et al.，2013）表示上下文KG中的实体和关系，然后将它们转化为一个实体和关系向量序列{z0，z1，...，zq}，作为知识聚合器的输入。然后，知识聚合器通过知识图谱注意力对实体和关系序列进行编码，知识图谱注意力通过将可见矩阵M引入传统的自注意机制来考虑其图结构（Liu et al.，2020）。可见矩阵M只允许在表示学习过程中，KG中的相邻实体和关系彼此可见，如图2的右下角所示。
Entity-level Cross-KG Attention（实体级别交叉KG注意力机制）
为了计算KG增强实体表示，给定一个实体提及列表（entity mention list ）Ce = {（e0，start0，end0），...，（em，start m,end m）}，知识聚合器首先计算实体片段表示{e?i0...，e?im}，通过在文本中实体范围内的所有tokens上pooling计算得到文本中实体片段表示（Lee et al.，2017）。实体片段嵌入{e?i0，...，e?im}可以扩展到所有标记{e?i0，...，e?in}，方法是为不属于任何实体片段的token创建e?ij=t?ij，其中t?ij表示来自的第j个标记的表示token-level的自注意力。
为了对文本中的实体跨度与上下文KG中的所有实体和关系之间的交互进行建模，聚合器执行一个实体级的交叉KG注意力，让token关注KG中高度相关的实体和关系，从而计算KG增强的实体表示。具体来说，第i个聚合器中的实体级交叉KG注意力是通过实体片段嵌入{e?i0，... ， e?in}作为query和实体和关系嵌入{zi0 ， ... ， ziq}作为key和value之间的上下文多头注意力机制来实现的。（将文本中的实体片段表示作为query，将KG中的实体和关系表示作为key和value，进行注意力计算，从而得到知识增强的实体表示）
KG-enhanced Token Representations （知识增强文本表示）
为了将KG增强的实体信息注入到文本表示中，知识聚合器的第i层通过采用{t?i0，...，t?in}和{ei0...，... ， eni}之间的信息融合操作来计算KG增强的token表征{ti0 ， ... ， tin} 。对于第j个token ，融合操作的定义如下：

文章插图
其中，uij表示集成来自token和实体信息的隐蔽态。Wi?和bi?分别是可学习的权重和偏差。KG增强的token表示{t?i0，...，tin??}作为输入被输入到下一层知识聚合器中。
2.2预训练目标
为了将KG知识纳入语言表征学习中，KLMo采用了多任务损失函数作为训练目标：
【【论文翻译】KLMo: Knowledge Graph Enhanced Pretrained Language Model with Fine-Grained Relationships】

文章插图
除了掩码语言模型的损失LMLM (Devlin et al., 2018; Li et al., 2020),基于相应的KG增强文本表示{t?M0，...，t?Mn}，整合关系预测损失LRP和实体链接损失LEL来预测KG中的实体。
对于每一对实体片段，我们利用它们在KG中对应实体之间的关系作为关系预测的远距离监督。关系预测和实体链接目标是将KG中的关系和实体整合到文本中的关键。由于在实体链接目标中的Softmax操作在KG中的实体数量相当大，我们通过只预测同一批中的实体而不是KG中的所有实体来处理这个问题。为了防止KLMo在预测而不是依赖于文本上下文时完全记住实体的提到，我们在输入文本中使用一个特殊的[MASK]token随机屏蔽了10%的实体。
03实验
本节详细介绍KLMo预训练及其对两个特定知识驱动的NLP任务的微调：实体类型和关系分类。我们通过百度百科的中文语料库和百度百科的知识图谱的中文语料库对KLMo进行预训练。训练前语料库和实验设置的细节见附录A 。
3.1Baselines
我们将KLMo与在同一百度百科语料库上预训练的最先进的PLMs进行了比较：（1）BERT-Base Chinese (Devlin et al., 2018),在百度百科语料库进行一轮预训练（2）ERNIE-THU (Zhang et al., 2019),这是该领域的开创性和典型工作，将实体知识纳入PLM 。（3）WKLM (Xiong et al., 2019),一个弱监督的知识增强PLM，使用实体替换预测来合并实体知识，它提供了几个知识驱动任务的最先进的结果。
3.2实体类型
数据集在这项工作中，我们创建了一个中文实体类型数据集，这是一个完全手动的数据集，包含23100个句子和28093个注释实体，分布在15个细粒度的媒体作品类别，如电影、节目和电视剧。我们将数据集分成一个有15000个句子的训练集和一个有8100个句子的测试集。数据集的详细统计数据和微调设置显示在附录B.1中。