八爪鱼采集器能取代python爬虫吗?

理由
举报 取消

http://www.bazhuayu.com 题猪不会代码,想整理一个选择留学院校的数据库,方法是爬下各种不同表现形式的选校网页(需制定多套爬虫规则),不过偶然发现这个软件,还在摸索用法,有没有用过的同学说说看法?

2017年6月10日 10 条回复 1890 次浏览

发起人:Robot 管理大师

回复 ( 10 )

  1. 老夏
    理由
    举报 取消

    用过八爪鱼,火车头,小飞侠等诸多采集器,很多功能类似,也是很基础,但终有一点就是要收费,采集下来的数据没法展现在一个平台上,让用户直观的看到,另外还有就是CS架构固有的缺点,这里就不多说了。

  2. 桂能
    理由
    举报 取消

    现在搞伪原创的哥们这么辛苦啊,做个垃圾站站长还要操心python爬虫,真辛苦。

    答案是显然不能,python爬虫可以作为八爪鱼的基础内核哇,爬虫可以取代八爪鱼,但八爪鱼这种应用级别的软件,怎么能取代内核呢

  3. Ivan
    理由
    举报 取消

    连Linux都不支持

  4. Python小白
    理由
    举报 取消

    之前用过火车采集器,然后学python,感觉其实原理是一样的。

    用软件采集数据,优点是不用你去写代码,不用考虑怎么写多线程,不用……但缺点是灵活度没有自己写代码的高,数据采集下来之后如果需要预处理也不行。。。好吧,对于采集软件我用的不多,还有什么优缺点也不太清楚。

    但是我还是喜欢Python写爬虫

    哦(ᵒ̤̑₀̑ᵒ̤̑)对了,采集软件就是收费收费收费

  5. 极客兔子
    理由
    举报 取消

    作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。

    八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。

    不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。关于这个我在我的博客里简单写了写,不过说实话心得太多,还没仔细整理。

    首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。

    但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。

    八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。

    八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。

    还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。

    除非对技术有很高要求,否则我觉得八爪鱼采集器很好用,比火车采集器好用,虽然效率没那么高,但是比起费劲学习和研究数据包,还是用这个省事。我没事也会在八爪鱼群里解答一些规则编制的问题。

    综合写了一下对比和坑,放在知乎专栏里了,有兴趣的可以去看看:

    浅谈一下最近使用八爪鱼采集器遇到的坑(还有对比其他采集软件和爬虫) – 知乎专栏

  6. 马浩翔
    理由
    举报 取消

    这不是取代的问题。python是语言,爬虫是技术,而且,不仅仅是python,很多语言都可以实现爬虫技术。

    但是,你要知道,当要采集、爬取的数据是大量的时候,单机采集是十分缓慢的

    而八爪鱼采集器还提供了云采集服务,在很短的时间内就可以完成你可能需要几天的时间来采集的工作量。

    ======================================================================

    补充:

    而且,你要知道,没有编程经验的人是有很多的!八爪鱼采集器可以自定义采集规则,让不懂编程的人也可以通过可视化UI,采集到自己想要的数据,非常容易上手!

    提供两个链接供楼主参考:

    姗姗来迟的八爪鱼

    如何解决问题-写在神兽八爪鱼还年轻的时候

  7. comboo
    理由
    举报 取消

    别逗了

    python能代替八爪鱼

    因为无论你用八爪鱼采集什么,我都便宜一半用python给你采集

    我认真的

  8. 一二三是五六十
    理由
    举报 取消

    现在做软文的不容易

  9. Center
    理由
    举报 取消

    简单的说八爪鱼是一款任何人都可以使用

    任何网站都可以采集

    的通用性采集软件

    并且他的云采集可以把采集任务自动分配到云端多台服务器同时执行,采集效率特别高,对于大数据采集也会很快完成。

  10. 徐文强
    理由
    举报 取消

    什么时候这软件能做到正常运行十分钟不发生“未响应”,再说其他的吧。

我来回答

Captcha 点击图片更换验证码