相似性计算方法

局限性

特点

Jaccard相似系数

对于稀疏数据,共同评分项目非常稀少时相似度计算不准确;样本的特征值为非二进制,无法使用;容易受热门项目的影响。

值域[0, 1],计算复杂度较低。适用于样本的特征值为二进制。平行的评分向量下不受影响。

余弦相似性

对于稀疏数据,共同评分项目非常稀少时相似度计算不准确;存在平行的评分向量,无法直接对其相似度关系进行描述。

值域[−1, 1],对向量进行了归一化处理,解决了向量个体间存在度量标准不统一问题产生的计算偏差;相比于距离相似性能够很好的对向量间的相似度值进行了量化。

Pearson相似性

对于稀疏数据,共同评分项目非常稀少时相似度计算不准确;存在平行的评分向量,无法直接对其相似度关系进行描述。

值域[−1, 1],相比于余弦相似度对变量进行了均值化(或去中心化)处理,减少变量个体的数值差异对变量间相似度的影响。

距离相似性

对于稀疏数据,共同评分项目非常稀少时相似度计算不准确;特征刻度指标不同,其计算结果可能会失效。

值域[0, ∞];从向量间的绝对距离区分差异,对向量各个维度内的数值特征非常敏感;用于需要从维度的数值大小中体现差异的相关度分析。