企查查、企+这种网站、APP的详细数据来源是哪里? 举报 理由 举报 取消 这些用来查企业非常方便,但是疑惑这种网站的信息是否准确,有没有大神知道具体的数据来源是哪里? 2017年8月4日 9 条回复 3766 次浏览 大数,据分析,数据,数据查询,来源
回复 ( 9 )
我也做了个类似的项目,搜索到此问题。
主体数据来源是全国工商信用网
但是每个省的工商系统都不同,要针对每个省的工商系统单独写爬虫
每个省的验证码也不同,也要单独做。
下面截图来自于媒体报道
从这段话推出,
企查查的原理不是主动爬去数据,而是有人查询该企业时,如果自己的数据库没有该企业,他们的爬虫就会去工商系统抓取信息。这个步骤非常耗时,爬一个企业资料都需要40秒。一旦信息获取成功,就放到他们自己的数据库中,下次有人在查询该企业,就只有几毫秒了。
从这种模式上来看,验证码也不可能是针对每个省都单独做了识别模块的,而是接入了打码平台。采集一个企业信息这么慢,只有是验证码打码才能解释了。
这种方法爬出来的数据可能不全,但是没人关注的公司就不用花钱打码了,非常节省成本。
我计划把全国各省的验证码识别模块单独做出来,
目前只做了一个省的 100%的识别率。
该省每天新增企业信息包括个体户全都可以获取到
没用过,个人经验应该是
1、抓取各地工商系统的数据,譬如 河北省市场主体信用信息公示系统
2、从市场购买的企业及企业主信息,好多朋刚注册公司,就会接到关于公司相关商业骚扰
这个数据应该是ZF公开渠道采集来的。部份来自网友发布。网友发布的信息真实性不确定,可以理解为企业信息方面的今日头条 —- 另一个聚合
我能想到的无非两种获取数据方式,1.总对总合作直接数据同步,类似于公安NCIIC批量同步工商数据再对外包装成服务的原理。这种方式通常有T+N的数据延迟缺陷。2.爬虫生抓,互联网企业常用方式。这种方式很硬,需要较强的技术储备以解决数据源更新后的同步问题以及各省网站五花八门的验证码问题。什么中文的,英文的,数字加减乘除的……识别率很头疼的。幸运的是,对于这种国家队做的系统你通常不会遇到反爬虫的困惑。
可以将每天新增企业信息获取到,这个是如何操作呢,全国信用系统不是用关键词查找的么?谢谢
工商、法院
和工商官网、法院官网同步的信息
正在做一个类似的网站,不过是帮一个省级信用单位做的,信息都是从各个单位例如工商给提供的数据,不过这个网站类似于政府单位的网站,版权所有事政府单位。
先答题主的问题:
最权威的政府的网站直接可以查,可以点开感受下。
国家企业信用信息公示系统
我不否认评论里对于网站通过算法,深度挖掘股权关系,对于解决审计痛点的意义。
但不代表我认可这些网站的处理方式是合法的。
(我知道pr号要说了,提问的人没问合法不合法,你瞎bb啥。就是赚钱多,你没见过吧。)
对了,我简单概括下pr号的见解,用个比喻是:
你根本不懂嫖是多简单的一件事情。你知道谈个恋爱之类的多麻烦吗?
我嫖的好开心。
你个屌丝没女朋友吧,你个屌丝没啪过吧。不懂吧,没见识吧,没见过海天盛宴吧。
而我的见解是:
不合法
所以pr号的回应是:
满大街都是,没人抓啊。你瞎哔哔什么。
为什么我会这么比喻呢?看看他的评论:
李德生相关截图一
总结下他的这段评论:
1、答主你就是个程序员,不要不懂装懂。
2、答主你偷偷摸摸变更章程改变注册资金不备案。
3、这样的网站很方便。
我的回复是:
1、我不是程序员
2、我不知道哪里的犄角嘎达改变章程和注册资金是可以不备案的。注册资金就给要备案给别人看的。官方的信息也是披露的最快的。
你到底懂还是不懂我也真是搞不懂了。
3、嫖也很方便,不代表合法
傅较瘦相关截图一
再总结下他的这段评论:
1、题主问的是来源,不是合不合法,就算不合法,答主你能证明不合法吗,就算答主你证明了,政府官方都没有阻止,不关答主的事情。
2、不认同答主的难道都是pr?
3、隐私泄露早就有了,和这些同样也泄露隐私的网站无关。
我的回复是:
1、我早就在评论里贴了“非法获取公民信息罪”,建议去百度下,谢谢。
一个电话号码就足够了。
2、我好像就主要针对了李德生。
如果不是相关利益者,为什么言辞如此激烈?
正常评论,表达的态度即使偏颇一方也并非一面倒,又不是辩论赛。
而你这个傅较瘦倒是挺有意思,详见傅较瘦截图二。
你替李德生鸣不平咯?
按照你的逻辑,他的事情,何劳你操心?
3、别人做不做是别人的事,我现在看到的就是你们网站做了。谁让你们做的这么不隐秘呢?
官网的公示并没代表授权这些网站转载。而这些网站也并未表示如果侵权会删除。
你没看到即便知乎上面的答案也是会维权,并未授权是不让转发的吗?
另外,转载其他答案里,有人披露了相关买卖合同。正如他说的,卖数据才是最可怕的。
傅较瘦相关截图二
总结下他的这段评论:
1、评论者不提自己身份,不说自己是不是pr。直说答主你截图出来的是答主猜测为pr的人,答主因为别人回复不同意见就认定pr,还 特地 截图。
2、答主你其实就是要黑这些网站,所以逻辑混乱答非所问。
我的回复是:
1、截取出来有什么问题吗?是准备以后删除吗?臆测,你这么肯定你是对的?还是你也是?
2、说道答非所问这件事,还是让我们回顾想刚才两张截图吧?不是pr号最擅长的吗?
而关于黑和我的回答的先后关系。不正是你现在在颠倒吗?
我正是因为先回应了李德生多次评论。我觉得就是因为我回答中了核心问题,因此,才引来了你。于是从,无好感到厌恶的心态转变。所以在我看到其他相关问题的时候,特别留下我的想法。
同时,
我在这里重复说下。我现在就是对此类网站不抱有好感。最开始源自泄露电话,然后源自你。 我质疑所有类似网站内容里关于隐私电话获取渠道的合法性。
丢掉饭碗?你怎么不说说自己做什么的呢?
梳理的已经比较清楚的了,不过既然李德生他还在源源不断的回复,我就整理下,按照他的要求,贴一下
本来的确懒得回复了,没必要学狗。毕竟几个小圈意味大家已经看得出了。
就把两个大圈内容总结下:
1、变更以后要马上登记呀,不登记后果严重呀
2、答主你没见过融资吧,所以听不懂在说什么吧。
回复:
1、说的好像变更以后可以不去登记一样,这个是一套流程。增资手续完毕以后,网站上工商网站实时就能查询到信息了。
如果你没实际操作过,就不要百度了。
去档案局调取章程,和在工商增资之类的变更流程,都是在一套里面的。
我操作过,你操作过没有?
2、不好意思,以上经验需要融资吗?
摊手。
你见过这么多融资,却连实际增资流程都没见过。
最后截图个近期的
为了专门让我注意到,你们知道这个pr号还专门给我点了个赞吗?哈哈哈哈
挺孜孜不倦的,还在我没回复的情况下找这篇回复,再次回复。
别人对你的佣金是按字数结算还是按次数结算?
以上。
2017年1月19日。
后文为原文(加了part1、2、3、4和备注,引用部分为原文),可能刚才编辑稍微剪切了点原文,都应该补上了。如果谁有截图全部原文也可以贴,应该没修改。
————
part1(原回答)
————
part2(第一条质疑出现)
大概误读了语气,于是我更新了如下内容
同时我搜索了这个企查查作为案例
————
part3(疑似pr的李德生出现,连发两条,第一条的语气我应该没读错,毕竟可以联系上下文。)
于是我更新了下面的截图和回复
——————–
part4(然后李德生开始孜孜不倦了)
于是我更新了如下内容
以上,最新的总结回复已经放到最前了。这个回答懒得更新了。
基本已经讲清楚这个事情了。
没必要颠来倒去重复胡搅蛮缠的提问。
毕竟,回答了也视而不见