Dedupe去重与实体对齐

本文共443个字,预计阅读时间需要2分钟。

简介

Dedupe是一个python库,使用机器学习对结构化数据快速执行模糊匹配,重复数据删除和实体对齐。

输入的数据:单文件csv表格

执行:用户在控制台根据提示标注少量相似数据即可

输出的数据:单文件csv表格,同时对相似的记录打上标签

Dedupe操作实例

  • 从名称和地址的电子表格中删除重复的条目
  • 具有客户信息的列表链接到具有订单历史记录的列表,即使没有唯一的客户ID
  • 收集竞选捐款的数据库,并找出同一人所做的捐款,即使每个记录的名称输入略有不同

Python库地址

https://github.com/dedupeio/dedupe

实例

原始csv文件:

下面的代码将对第三列name去重

代码

标注少量数据

程序会自动跳出两行的name段内容,根据你的认知标注这两个name是否为同一个实体,选项包括yes, no, unsure, finish

生成的csv

可以看到多了两列,一列是聚类号,相同的聚类号为相似实体,还有一列为置信度。

 

2 位极客在 “Dedupe去重与实体对齐” 留下足迹

评论