性能—使用mysql db将重复数据消除包功能扩展到大数据

tez616oj 于 2021-06-25 发布在 Mysql

关注(0)|答案(0)|浏览(197)

我现在已经尝试了一段时间来制作一个工作示例，它可以扩展到连接到sql的半大型数据集（使用软件包提供的示例），但没有成功。如果有人能给我一些帮助或分享他们的工作样品，我将不胜感激。
到目前为止我尝试过的事情：
我试过sql示例。为了满足gtid标准，我不得不中断一些sql代码来分离create和insert语句，但其他的都遵循这个示例。我遇到的问题是，当它到达集群部分时（在似乎成功运行到该点之后），会出现以下错误：
“dedupe.core.blockingerror:没有记录被一起阻止。您尝试匹配的数据是否与您训练的数据相同？“无论我做了什么，这都不是固定的（我正在训练和测试相同的数据，所以这个错误对我来说没有意义。）
对于大型地名录，我尝试使用这个例子开始，但这是我得到的错误：“typeerror:train（）最多接受3个参数（给定4个）”。我在这里所做的唯一改变是我正在连接到一个mysql数据库。另外，我也找不到任何关于如何实际缩放地名索引匹配的所有部分的指导（或者只是不明白这个例子是如何帮助实现的）。
有人能用mysql将这些数据扩展到大数据吗？
请让我知道，如果我需要提供更多的信息或代码片段。
提前谢谢。

mysql performance python-dedupe record-linkage EntityResolver

来源：https://stackoverflow.com/questions/49798030/scaling-dedupe-package-functionality-to-large-data-using-mysql-db