• 即将更新图形学,编译原理,机器学习等文章,谢谢关注~
  • 由于算法限制,搜索时注意简化关键字,谢谢支持~
  • 网站不兼容IE5.0及以下,请使用主流浏览器访问.
  • 基于有监督的词移距离(SWMD)简介

    声明:本文章为机器学习期末作业一部分

    WMD距离

    基于WMD(词移距离)的句子相似度分析简介

    我们理解了WMD距离, 那么问题来了, 学习这个权重矩阵用来聚类虽好(告诉我们哪些文档比较相近),  但是,  用来分类却很差!

    为什么?因为一些文章虽然近义词很多, 但是表达的不是一个语义和主题。

    比如:

    I love playing football.

    I like playing LOL .

    虽然看起来句式差不多, 可能会归为同类, 但是如果打标签时如果是“运动”和”游戏”两类, 显然就不能用WMD直接分类了。因为, WMD没有加入 football和”运动” 是强相关的信息。

    SWMD

    在SWMD中作者引入了一个监督机制。

    给词向量空间引入一个A,定义新的移动代价:

    利用线性度量学习算法NCA来学习A,这样就引入了监督机制。

    实验结果:

    加上了监督机制后错误率还能再下降一个层次。需要指出的是,不能简单地添加基于度量学习的监督矩阵,一方面,在计算过程中梯度可能不存在,另一方面,基于KNN的SWMD将会耗费大量的时间,因此需要采取相关措施来解决这些问题。具体请参考原文。

    原文:

    Huang G, Guo C, Kusner M J, et al. Supervised word mover’s distance[C]//Advances in Neural Information Processing Systems. 2016: 4862-4870.

    读者评分
    [评分人数: 3 平均分: 5]

    评论

    OmegaXYZ