基于有监督的词移距离（SWMD）简介

声明：本文章为机器学习期末作业一部分

WMD距离

基于WMD（词移距离）的句子相似度分析简介

我们理解了WMD距离, 那么问题来了, 学习这个权重矩阵用来聚类虽好(告诉我们哪些文档比较相近), 但是, 用来分类却很差!

为什么?因为一些文章虽然近义词很多, 但是表达的不是一个语义和主题。

比如:

I love playing football.

I like playing LOL .

虽然看起来句式差不多, 可能会归为同类, 但是如果打标签时如果是“运动”和”游戏”两类, 显然就不能用WMD直接分类了。因为, WMD没有加入 football和”运动” 是强相关的信息。

在SWMD中作者引入了一个监督机制。

给词向量空间引入一个A，定义新的移动代价：

利用线性度量学习算法NCA来学习A，这样就引入了监督机制。

实验结果：

加上了监督机制后错误率还能再下降一个层次。需要指出的是，不能简单地添加基于度量学习的监督矩阵，一方面，在计算过程中梯度可能不存在，另一方面，基于KNN的SWMD将会耗费大量的时间，因此需要采取相关措施来解决这些问题。具体请参考原文。

原文：

Huang G, Guo C, Kusner M J, et al. Supervised word mover's distance[C]//Advances in Neural Information Processing Systems. 2016: 4862-4870.

留下评论