Dedupe去重与实体对齐

简介

Dedupe是一个python库,使用机器学习对结构化数据快速执行模糊匹配,重复数据删除和实体对齐。

输入的数据:单文件csv表格

执行:用户在控制台根据提示标注少量相似数据即可

输出的数据:单文件csv表格,同时对相似的记录打上标签

Dedupe操作实例

  • 从名称和地址的电子表格中删除重复的条目
  • 具有客户信息的列表链接到具有订单历史记录的列表,即使没有唯一的客户ID
  • 收集竞选捐款的数据库,并找出同一人所做的捐款,即使每个记录的名称输入略有不同

Python库地址

https://github.com/dedupeio/dedupe

实例

原始csv文件:

下面的代码将对第三列name去重

代码

标注少量数据

程序会自动跳出两行的name段内容,根据你的认知标注这两个name是否为同一个实体,选项包括yes, no, unsure, finish

生成的csv

可以看到多了两列,一列是聚类号,相同的聚类号为相似实体,还有一列为置信度。

 

6 评论

  1. 当我使用dedupe的时候,出现AttributeError: ‘Dedupe’ object has no attribute ‘prepare_training’.请问您使用的是什么版本的dedupe呢~ 谢谢

    • 抱歉,我环境变了,你可以查找一下2020-07-24最新的dedupe是哪个版本。

  2. 你好,请问代码具体哪里决定了输出的类型呢?我的数据是中文,但让标注的时候输出是拼音

留下评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注