具体数据量是 169,279 条,主要信息是:标题、图片在网盘的绝对地址可以直接下载的,不知道接下来能用这些做点什么,动态语言我只会用php,想过用opencv 扩展做点图像识别什么的,请各位大神帮忙集思广益出出主意。(对,我知道你们想说什么,闲的蛋疼,哈哈,很多人这么说过我了,我不是IT专业的,只是最近比较闲,所以想研究点好玩儿的东西,无它。)—————————————–9月9日更新:感谢@数据客 给我的提示,让我能把这些零散的数据结构话并转化成一个可视化图表,分析 […]
查看全文如何得到列车时刻表的数据?
网络建模课需要做一个项目,打算做关于中国城市之间每天的火车车次数量。从网上找不到完整的列车时刻表数据,请问有什么方便的办法得到这些数据吗?如果没有办法直接下载到,也请教一下怎么用爬虫来获取数据。PS:一般来说火车时刻表还是固定的,所以只要是最近的某一天的时刻就行了。
查看全文爬到社交网络文字数据有什么用?
写了个小爬虫,爬了某社交网络数据,一晚上拿到大概500万纪录,还在爬。。。不知道这些数据有什么用。为了方便没有存关系数据,有没有必要完善一下然后把关系数据存下来(评论和评论人,点赞什么的)?谢——-来补充下,我爬的是qq空间,特别是说说的数据。这货没有速率限制,直接开80个线程放digital ocean, 单机就这速度。如果用上redis做分布式估计可以把腾讯服务器搞垮(听说是node JS的后端)最近没有看爬虫,GitHub上有人给我说好像被查了,等我申请季完了去看看。爬虫是我学C++的时候写的,所以略暴力,爬虫逻辑也挺简单的。有段时间还用Scala重构了下,写了点前端API,也不知道现在怎么样了。
查看全文