在实验室如何像腾讯Peacock, 或者像微软的DMTK进行基于主题模型的大规模数据分析? 举报 理由 举报 取消 这两年一直在研究主题模型,想着在实验室应该如何应用基于大规模数据的分析,特别最近几年,腾讯的Peacock 改进的Sparse LDA, 或者像微软的DMTK 改进的 LightLDA算法。 都看过这些文章,也知道他们的算法改进的模型,想着如何在实验室把他们提出的模型run起来。两点:1,数据该如何获取? 2,分布式的框架(使用微软开源的DMTK吗?)3,如何评价好坏? 2017年11月7日 2 条回复 1327 次浏览 Microsoft,主题,分析,实验室,微软,数据,模型,腾讯
回复 ( 2 )
peacock 由于没开源,用的话,需要自己实现一套。
建议直接用 DMTK 部署跑些实验,普通机器就可以部署的。
1、数据的话,从网上找一些共享的文档,比如 wiki,或者自己有针对性的爬取一些;
2、DMTK 足够了;
3、评价的话,可以参考 peacock paper 中给出的方法,比如看 loglikelihood,PMI。
搞了两年lda还能觉得那玩意好用的也是真爱啊。