如何计算基于特征的相似度? 举报 理由 举报 取消 假设电商网站用户有若干特征,每个特征对应一个分布,比如类别:得到向量(0.2,0.4…)表示该用户0.2的概率购买生活用品,0.4的概率是数码产品…, 按价格段分(0.4,0.3…)表示0-300的购买概率是0.4, 300-500的概率是0.3…如何计算不同用户的相似度?一种简单的方法是基于逻辑回归构造不同的特征的权重,按特征分别计算相似度,再加权。请教大家 还有什么其余的方法吗 2017年7月14日 2 条回复 1051 次浏览 学习,推荐,数据挖掘,机器,系统
回复 ( 2 )
试答。
没有遇到过这样的特征向量,只做过基于时间序列的特征相似度clustering, 如:
每户 日 平均用电量 呈不同曲线,有百万用户就有百万曲线,要求把相似用电行为的用户识别并分组。
在构建相似度变量的时候用过一条去中心化的余弦相似度,其实就是Correlation similarity。
根据题主的这几组特征, 基于概率, 可以试试:
1. 每组概率特征构建一个余弦相似度,benchmark 可为平均值或等分布概率, 例如“购买什么”那一条特征相量,就可以缩减为一个基于benchmark的余弦相似度。然后再对“花多少钱”那一条做同样的事。
2. 只有余弦相似度不够。加一条基于cumulative probability curve的余弦相似度。这样每个用户若干特征缩减为两个值 (两个相似度)。
楼主你好,该问题目前有其他解决方案了吗?