有大神提供协同过滤实现推荐系统的好思路? 举报 理由 举报 取消 我的思路就很小白,就是给用户做个画像,然后通过获取所有标签的物品集合。然后取出同标签下排斥结果集的作品,推荐。。。。。搭了一个HADOOP的环境,想在HIVE上直接用SQL,通过协同过滤来实现一个延时推荐系统。有哪些好的思路各位大大分享一下可以吗? 2017年5月1日 1 条回复 1220 次浏览 协同,数据挖掘,过滤
回复 ( 1 )
我正好在做推荐系统相关的研究,我觉得对于刚入门来说可以
1、熟悉推荐系统基本算法,协同过滤、矩阵分解等,可以看一下项亮的《推荐系统实践》,这个工作相当于survey,能够让我们对推荐系统有整体的理解,并且知道现在都用什么算法
2、找一个数据集(比如netflix电影数据集),用开源的机器学习算法包,我用的是mahout,试试基本的推荐算法,mahout实现了分布式item-based以及矩阵分解推荐方法。mahout还有一些单机的推荐算法,如 user-based,svd++
3、熟悉了算法原理、跑出了实验结果,对于推荐系统就有了大致的认知,我觉得这时候试着看源码,然后尝试自己实现基本的算法
题主的想法没看明白,给用户画像其实是不容易的,看你的想法是希望给用户画像后能够给用户打上标签,然后通过物品的标签,将用户和物品链接起来进行推荐。这个推荐的质量取决于用户画像的好坏以及物品标签的质量。
直接在hive上使用sql实现离线推荐系统,在我的认知里有点诡异,hive上的SQL本来就是会转化为mapreduce,在hdfs上得到结果,hive只是提供接口,让不懂mapreduce的人更方便获取结果。所以题主的整个逻辑有点乱呢。
不知道题主对于推荐系统有多少了解,对于刚入门的人总是希望快速get到技能,但是殊不知所有的东西都是积累过来的,一点一点往上垒,最终会越学越happy。
最后,其实我也还是一个小白,斗胆回答了我知道的一些东西,希望对你有帮助