融合事实信息的知识图谱嵌入——翻译距离模型

本文共2685个字,预计阅读时间需要9分钟。

知识图谱嵌入

知识图谱(KG)是由实体 (节点) 和关系 (不同类型的边) 组成的多关系图。每条边都表示为形式 (头实体、关系、尾实体) 的三个部分,也称为事实,表示两个实体通过特定的关系连接在一起。虽然在表示结构化数据方面很有效,但是这类三元组的底层符号特性通常使 KGs 很难操作。为了解决这个问题,提出了一种新的研究方向——知识图谱嵌入。关键思想是嵌入 KG 的组件,包括将实体和关系转化为连续的向量空间,从而简化操作,同时保留 KG 的原有的结构。那些实体和关系嵌入能进一步应用于各种任务中,如 KG 补全、关系提取、实体分类和实体解析。

融合事实信息的知识图谱嵌入

步骤:

①使用连续向量空间表示实体关系,关系通常被视为向量空间的运算。
②定义评分函数,用来测量事实的合理性。
③学习实体关系的表示,优化问题:最大化全局观测事实的合理性。
有两个主要分类:
①平移距离模型 translational distance models 前者使用基于距离的评分函数
②语义匹配模型 semantic matching models 后者使用基于相似度的评分函数

平移距离模型

平移距离模型利用基于距离的评分函数。通常是在通过关系进行翻译之后,用两个实体之间的距离来衡量一个事实的合理性。下图是TransE及其变体的详细解释。

TransE及其变体

TransE:最具代表性的知识图谱嵌入

实体和关系都在同一空间,对于每一个三元组(h,r,t)TransE 希望:h+r=t
评分函数为:
f_{r}(h, t)=-\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{1 / 2}
缺点:复杂关系例如,一对多 、 多对一 、多对多关系不适用。

 

TransH:解决TransE在多元关系上的缺陷

可以让一个实体在不同的关系下拥有不同的表示,方法对于一个三元组 (h, r, t) , TransH 首先将头实体向量 h 和尾实体向量 r,沿法线 wr,投影到关系 r 对应的超平面上,用 h⊥和 t⊥表示如下:
\mathbf{h}_{\perp}=\mathbf{h}-\mathbf{w}_{r}^{\top} \mathbf{h} \mathbf{w}_{r}, \quad \mathbf{t}_{\perp}=\mathbf{t}-\mathbf{w}_{r}^{\top} \mathbf{t} \mathbf{w}_{r}

TransR:实体和关系在不同的语义空间中

每一个关系关联着一个特定的空间,首先需要将实体映射到关系空间。
\mathbf{h}_{\perp}=\mathbf{M}_{r} \mathbf{h}, \quad \mathbf{t}_{\perp}=\mathbf{M}_{r} \mathbf{t}
其中转换方式是一个从实体空间到关系空间的投影矩阵。
缺点:转换方式是空间投影,复杂度高。

TransD:对TransR的简化

将TransR的投影矩阵分解为两个向量的积。

TransSparse:在投影矩阵上强化稀疏性来简化TransR

它有两种版本,一个是共享型,另一个是独立型,其中share版本的头尾实体共享头一个稀疏投影矩阵,独立型的头尾实体则分别有一个投影矩阵。

TransM:放松TransE的转化要求,提高模型性能

为每个事实分配特定的关系权重θ,改变评分函数。
f_{r}(h, t)=-\theta_{r}\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{1 / 2}
通过对一对多、多对一和多对多分配较小的权重,TransM 模型使得 t 在上述的复杂关系中离 h+r 更远。

ManifoldE

把 t 近似地位于流形体上,即一个以 h+r 为中心半径为 theta_r 的超球体。

 

TransF

只需要 t 与 h+r 位于同一个方向,同时 h 与 t-r 也位于同一个方向。

 

TransA

为每个关系 r 引入一个对称的非负矩阵 Mr,并使用自适应马氏距离定义评分函数。

 

高斯嵌入:考虑到实体与关系的不确定性,使用随机变量建模

KG2E:使用高斯分布来表示实体和关系

其中高斯分布的均值表示的是实体或关系在语义空间中的中心位置,而高斯分布的协方差则表示该实体或关系的不确定度。KG2E 模型将实体和关系表示为从多变量高斯分布中抽取的随机向量。

\begin{aligned} \mathbf{h} & \sim \mathcal{N}\left(\boldsymbol{\mu}_{h}, \Sigma_{h}\right) \\ \mathbf{t} & \sim \mathcal{N}\left(\boldsymbol{\mu}_{t}, \mathbf{\Sigma}_{t}\right) \\ \mathbf{r} & \sim \mathcal{N}\left(\boldsymbol{\mu}_{r}, \mathbf{\Sigma}_{r}\right) \end{aligned}
通过测量 t-h 和 r 这两个随机向量之间的距离来为一个事实评分,通过 两种方法来进行测量。一种是通过 KL 散度(KL 距离)来进行测量,另一种是计算概率的内积。

TransG

实体采用高斯分布,但它认为关系具有多重语义,需要采用混合的高斯分布的表示

 

其他距离模型

非结构化模型UM(Unstructured model)

TransE的简单版本,直接设置所有的r=0

f_{r}(h, t)=-\|\mathbf{h}-\mathbf{t}\|_{2}^{2}

结构化嵌入SE(Structured embedding)

通过使用两个独立的矩阵 为每个关系 r 对头尾实体进行投影
f_{r}(h, t)=-\left\|\mathbf{M}_{r}^{1} \mathbf{h}-\mathbf{M}_{r}^{2} \mathbf{t}\right\|_{1}

平移距离模型总结


参考文献:Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, PP(99):1-1.

评论