在实验室如何像腾讯Peacock, 或者像微软的DMTK进行基于主题模型的大规模数据分析?

理由
举报 取消

这两年一直在研究主题模型,想着在实验室应该如何应用基于大规模数据的分析,特别最近几年,腾讯的Peacock 改进的Sparse LDA, 或者像微软的DMTK 改进的 LightLDA算法。 都看过这些文章,也知道他们的算法改进的模型,想着如何在实验室把他们提出的模型run起来。两点:1,数据该如何获取? 2,分布式的框架(使用微软开源的DMTK吗?)3,如何评价好坏?

2017年11月7日 2 条回复 1257 次浏览

发起人:qss2012 初入职场

回复 ( 2 )

  1. fandywang
    理由
    举报 取消

    peacock 由于没开源,用的话,需要自己实现一套。

    建议直接用 DMTK 部署跑些实验,普通机器就可以部署的。

    1、数据的话,从网上找一些共享的文档,比如 wiki,或者自己有针对性的爬取一些;

    2、DMTK 足够了;

    3、评价的话,可以参考 peacock paper 中给出的方法,比如看 loglikelihood,PMI。

  2. 匿名用户
    理由
    举报 取消

    搞了两年lda还能觉得那玩意好用的也是真爱啊。

我来回答

Captcha 点击图片更换验证码