爬虫 - 12Reads管理问答

我用php爬了某（和谐）网站接近 17万条的标题、图片链接等信息，请问接下来我能用这些数据做什么？

李焕朋 2017-11-07 970 次浏览

具体数据量是 169,279 条，主要信息是：标题、图片在网盘的绝对地址可以直接下载的，不知道接下来能用这些做点什么，动态语言我只会用php，想过用opencv 扩展做点图像识别什么的，请各位大神帮忙集思广益出出主意。（对，我知道你们想说什么，闲的蛋疼，哈哈，很多人这么说过我了，我不是IT专业的，只是最近比较闲，所以想研究点好玩儿的东西，无它。）—————————————–9月9日更新：感谢@数据客给我的提示，让我能把这些零散的数据结构话并转化成一个可视化图表，分析 […]

查看全文

单靠爬虫如何创业？

Robot 2017-11-04 968 次浏览

查看全文

如何得到列车时刻表的数据？

Wilson Gao 2017-11-02 1068 次浏览

网络建模课需要做一个项目，打算做关于中国城市之间每天的火车车次数量。从网上找不到完整的列车时刻表数据，请问有什么方便的办法得到这些数据吗？如果没有办法直接下载到，也请教一下怎么用爬虫来获取数据。PS：一般来说火车时刻表还是固定的，所以只要是最近的某一天的时刻就行了。

查看全文

爬到社交网络文字数据有什么用？

邓一平 2017-10-22 1674 次浏览

写了个小爬虫，爬了某社交网络数据，一晚上拿到大概500万纪录，还在爬。。。不知道这些数据有什么用。为了方便没有存关系数据，有没有必要完善一下然后把关系数据存下来（评论和评论人，点赞什么的）？谢——-来补充下，我爬的是qq空间，特别是说说的数据。这货没有速率限制，直接开80个线程放digital ocean, 单机就这速度。如果用上redis做分布式估计可以把腾讯服务器搞垮（听说是node JS的后端）最近没有看爬虫，GitHub上有人给我说好像被查了，等我申请季完了去看看。爬虫是我学C++的时候写的，所以略暴力，爬虫逻辑也挺简单的。有段时间还用Scala重构了下，写了点前端API，也不知道现在怎么样了。

查看全文

如何用Python爬虫导出农药登记数据？

Robot 2017-09-06 1245 次浏览

查看全文

能否用爬虫抓取股票数据？

geeKer 2017-09-03 1228 次浏览

查看全文

1 2 3 4

找回密码

我用php爬了某（和谐）网站接近 17万条的标题、图片链接等信息，请问接下来我能用这些数据做什么？

单靠爬虫如何创业？

如何得到列车时刻表的数据？

爬到社交网络文字数据有什么用？

void?

微博是如何防爬虫的?

网页如何判断一个请求来自于爬虫？又应该如何绕过？

如何将EXCEL表格上传网页？

如何用Python爬虫导出农药登记数据？

能否用爬虫抓取股票数据？

帐户注册

登录

找回密码