帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

我用php爬了某(和谐)网站接近 17万 条的标题、图片链接等信息,请问接下来我能用这些数据做什么?

具体数据量是 169,279 条,主要信息是:标题、图片在网盘的绝对地址可以直接下载的,不知道接下来能用这些做点什么,动态语言我只会用php,想过用opencv 扩展做点图像识别什么的,请各位大神帮忙集思广益出出主意。(对,我知道你们想说什么,闲的蛋疼,哈哈,很多人这么说过我了,我不是IT专业的,只是最近比较闲,所以想研究点好玩儿的东西,无它。)—————————————–9月9日更新:感谢@数据客 给我的提示,让我能把这些零散的数据结构话并转化成一个可视化图表,分析 […]

查看全文

在实验室如何像腾讯Peacock, 或者像微软的DMTK进行基于主题模型的大规模数据分析?

这两年一直在研究主题模型,想着在实验室应该如何应用基于大规模数据的分析,特别最近几年,腾讯的Peacock 改进的Sparse LDA, 或者像微软的DMTK 改进的 LightLDA算法。 都看过这些文章,也知道他们的算法改进的模型,想着如何在实验室把他们提出的模型run起来。两点:1,数据该如何获取? 2,分布式的框架(使用微软开源的DMTK吗?)3,如何评价好坏?

查看全文

数据调研公司的职业发展前景与规划?

本人统计学硕士毕业,最近收到了几家数据调研公司的offer,公司在业内知名度和排名都不错,但是不知道这个方向的职业发展前景怎么样?以后如果不做乙方了,想去甲方的话这个会给履历加分吗?请各位大神帮忙分析一下。

查看全文

如何获得到相对详细的民航运营数据?

最近在写一篇关于航空联盟内部竞争的论文,需要具体研究具体每条航线上的运营情况,美帝有DOT的数据,但是国内貌似没有看到这类数据不知道在哪里可以找到呀?比较着急·······如果是要大学图书馆的数据库的话麻烦告诉我是哪个大学图书馆里面买了这个数据库········

查看全文