marquee
  • 2018上半年将更新数据库、C++、计算机组成原理、操作系统等文章,谢谢关注~
  • 由于算法限制,搜索时注意简化关键字,谢谢支持~
  • 网站不兼容IE5.0及以下,请使用主流浏览器访问.
  • 试用搜索、标签、分类目录功能发现更多。
  • Python利用结巴模块统计《水浒传》词频

    中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

    1. 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
    2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
    3. 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

    下面利用结巴分词队水浒传的词频进行了统计

    代码:

    结果:

    如果数据有误那就是水浒传txt文件被修改过了,这就别怪我咯。

    读者评分
    [评分人数: 0 平均分: 0]

    评论

    OmegaXYZ