天眼查是怎么获得企业工商信息的? 举报 理由 举报 取消 RT 如题 信息爬取方面的 尽可能的说说吧 2017年10月3日 10 条回复 1911 次浏览 Java,信息,信息技术,抓取,数据,数据挖掘,网络
回复 ( 10 )
看了下天眼查的网站,除了工商数据之外,还有招聘数据、著作权、专利、商标、企业新闻等,这里只问到了企业工商数据,故先只回答企业工商数据的来源,其他部分有时间可以更新一下。
工商数据包括了工商基本信息、股东信息、工商变更信息、主要任职人员、企业分支机构、动产抵押、股权出质、行政处罚、企业年报等很多信息,其唯一可信的来源,是「全国企业信用信息公示系统
唯一合理的解释是:天眼查通过网络爬虫抓取了全国企业信用信息公示系统的绝大部分公司工商数据。
这其中存在两个难点:
对于解决方案,第一个难点有两个需要解决的问题:1) 各省查询的时候提交请求参数不同; 2) 解析的网页结构不同。第一个无他法,只有硬着头皮手写三十多个不同的提交请求的方式,来模拟各省份不同的查询接口。第二个,其实是可以做到通用,因为虽然网页结构不完全相同,但是最后的呈现形式大同小异,所以是有方式做到非常通用的解析代码的。之所以不说百分之百通用,是因为总有例外需要特殊处理,比如重庆的工商数据,返回的就是一个 JSON 串,不需要再去解析 HTML。
第二个问题才是真正棘手的。无法直接遍历工商信息,那么怎样获取尽可能多的工商数据呢?第一,全国企业信用信息公示系统的访问时很慢的,所以在这里做遍历的话,效率会非常低。但是,每个公司会有唯一的组织机构代码,生成规则可以在网上找到,或者可以直接买一本回去慢慢研究(组织机构代码另外,我相信天眼查还会做的一件事就是,当用户查询一家公司,在自己数据库没有找到结果的时候,会立即去全国企业信用信息公示系统查询,并将结果保存下来。
做到上面的内容,还需要一种机制定期更新数据库中的大量公司的信息,当然这是后话。当然,这两步中都面临一个问题——验证码。数以千万计的公司,如果使用人肉打码的话,效率和成本上肯定都是无法承受的,所以,相信天眼查内部还会有一位以上图像识别方面的大牛,毕竟上面出现的网站中有些验证码的识别还是非常困难的。
———————
一点后话
对于天眼查官网首页的 8000万+ 企业数据,我是持怀疑态度的,或者说,我绝对不信。其实我看到的不同公司中,有说 3500w+,有说 5000w+,有说 7500w+,各家有各家的说法,保守估计至少 6 成水分,至于究竟是多少,估计只有他们自己知道。
工商信息主要来源爬虫抓取与即时更新
天眼查CEO柳超:公开数据的价值常被人们忽略_科技_腾讯网 天眼查CEO柳超:公开数据的价值常被人们忽略这篇访谈回答了一些相关问题,我认为有参考价值
爬虫爬的,zf机关很懒的,不可能给你接口,规避风险。
去央行办理一个企业征信牌照并按照央行的标准开发好数据端口,就能获得80 多项政府所有的企业信息了,工商的只是一种而已。
在技术上没啥难度。
刚知道这个网站我就去搜了中信
官方网站经常抽风,天眼查,名片全能王之类的移动查询,实在是很方便
我对致力于信息公开的人或者法人都存有一份敬意
这个就是一个流氓公司,企业没有任何授权给他,他就乱公布企业信息,企业信息里包含了高管的个人信息,他这种行为本身就是属于违法行为。
看好前途,DT时代。支付宝取代了银行。这家的数据能取代商标局,专利局,版权局的数据,然后有人气了,做数据咨询,做广告才有意义。