Name

Description

传统方法

直接利用字符串相似度的方法,对模式未知的半结构化数据计算记录之间的相似度根据用户需求给定阈值 δ ,大于该阈值的被认为是相似或相同记录。

基于字符串相似度的算法

将半结构化数据的每条记录看作字符串,每个分词看作子字符串,计算子字符串之间的编辑相似度,然后采用二分图最大匹配算法进行实体解析,最后根据用户需求给定阈值 δ ,并找出关联分数大于阈值 δ 的记录,被认为是相似或重复记录。

基于集合相似度的实体解析算法

将半结构化数据的每条记录看作是属性的集合,为每条记录创建签名,采用签名和倒排索引表寻找相关的候选集,并且对候选集进行过滤,删除误报的候选记录,最后采用三角不等式优化二分图最大加权匹配,并对候选记录进行验证。