发起人:Robot 管理大师

回复 ( 9 )

  1. 陈星
    理由
    举报 取消

    我也做了个类似的项目,搜索到此问题。

    主体数据来源是全国工商信用网

    但是每个省的工商系统都不同,要针对每个省的工商系统单独写爬虫

    每个省的验证码也不同,也要单独做。

    下面截图来自于媒体报道

    从这段话推出,

    企查查的原理不是主动爬去数据,而是有人查询该企业时,如果自己的数据库没有该企业,他们的爬虫就会去工商系统抓取信息。这个步骤非常耗时,爬一个企业资料都需要40秒。一旦信息获取成功,就放到他们自己的数据库中,下次有人在查询该企业,就只有几毫秒了。

    从这种模式上来看,验证码也不可能是针对每个省都单独做了识别模块的,而是接入了打码平台。采集一个企业信息这么慢,只有是验证码打码才能解释了。

    这种方法爬出来的数据可能不全,但是没人关注的公司就不用花钱打码了,非常节省成本。

    我计划把全国各省的验证码识别模块单独做出来,

    目前只做了一个省的 100%的识别率。

    该省每天新增企业信息包括个体户全都可以获取到

  2. 夏玉明
    理由
    举报 取消

    没用过,个人经验应该是

    1、抓取各地工商系统的数据,譬如 河北省市场主体信用信息公示系统

    2、从市场购买的企业及企业主信息,好多朋刚注册公司,就会接到关于公司相关商业骚扰

  3. ssy8110
    理由
    举报 取消

    这个数据应该是ZF公开渠道采集来的。部份来自网友发布。网友发布的信息真实性不确定,可以理解为企业信息方面的今日头条 —- 另一个聚合

  4. 王师傅
    理由
    举报 取消

    我能想到的无非两种获取数据方式,1.总对总合作直接数据同步,类似于公安NCIIC批量同步工商数据再对外包装成服务的原理。这种方式通常有T+N的数据延迟缺陷。2.爬虫生抓,互联网企业常用方式。这种方式很硬,需要较强的技术储备以解决数据源更新后的同步问题以及各省网站五花八门的验证码问题。什么中文的,英文的,数字加减乘除的……识别率很头疼的。幸运的是,对于这种国家队做的系统你通常不会遇到反爬虫的困惑。

  5. 呼呼
    理由
    举报 取消

    可以将每天新增企业信息获取到,这个是如何操作呢,全国信用系统不是用关键词查找的么?谢谢

  6. 冷小冷
    理由
    举报 取消

    和工商官网、法院官网同步的信息

  7. 匿名用户
    理由
    举报 取消

    正在做一个类似的网站,不过是帮一个省级信用单位做的,信息都是从各个单位例如工商给提供的数据,不过这个网站类似于政府单位的网站,版权所有事政府单位。

  8. 沈某人
    理由
    举报 取消

    先答题主的问题:

    最权威的政府的网站直接可以查,可以点开感受下。

    国家企业信用信息公示系统

    我不否认评论里对于网站通过算法,深度挖掘股权关系,对于解决审计痛点的意义。
    但不代表我认可这些网站的处理方式是合法的。
    (我知道pr号要说了,提问的人没问合法不合法,你瞎bb啥。就是赚钱多,你没见过吧。)

    对了,我简单概括下pr号的见解,用个比喻是:
    你根本不懂嫖是多简单的一件事情。你知道谈个恋爱之类的多麻烦吗?
    我嫖的好开心。
    你个屌丝没女朋友吧,你个屌丝没啪过吧。不懂吧,没见识吧,没见过海天盛宴吧。

    而我的见解是:
    不合法

    所以pr号的回应是:
    满大街都是,没人抓啊。你瞎哔哔什么。

    为什么我会这么比喻呢?看看他的评论:

    李德生相关截图一

    总结下他的这段评论:
    1、答主你就是个程序员,不要不懂装懂。
    2、答主你偷偷摸摸变更章程改变注册资金不备案。
    3、这样的网站很方便。

    我的回复是:

    1、我不是程序员

    2、我不知道哪里的犄角嘎达改变章程和注册资金是可以不备案的。注册资金就给要备案给别人看的。官方的信息也是披露的最快的。

    你到底懂还是不懂我也真是搞不懂了。

    3、嫖也很方便,不代表合法

    傅较瘦相关截图一

    再总结下他的这段评论:
    1、题主问的是来源,不是合不合法,就算不合法,答主你能证明不合法吗,就算答主你证明了,政府官方都没有阻止,不关答主的事情。
    2、不认同答主的难道都是pr?
    3、隐私泄露早就有了,和这些同样也泄露隐私的网站无关。

    我的回复是:

    1、我早就在评论里贴了“非法获取公民信息罪”,建议去百度下,谢谢。

    一个电话号码就足够了。

    2、我好像就主要针对了李德生。

    如果不是相关利益者,为什么言辞如此激烈?
    正常评论,表达的态度即使偏颇一方也并非一面倒,又不是辩论赛

    而你这个傅较瘦倒是挺有意思,详见傅较瘦截图二。
    你替李德生鸣不平咯?
    按照你的逻辑,他的事情,何劳你操心?

    3、别人做不做是别人的事,我现在看到的就是你们网站做了。谁让你们做的这么不隐秘呢?
    官网的公示并没代表授权这些网站转载。而这些网站也并未表示如果侵权会删除。
    你没看到即便知乎上面的答案也是会维权,并未授权是不让转发的吗?

    另外,转载其他答案里,有人披露了相关买卖合同。正如他说的,卖数据才是最可怕的。

    傅较瘦相关截图二

    总结下他的这段评论:
    1、评论者不提自己身份,不说自己是不是pr。直说答主你截图出来的是答主猜测为pr的人,答主因为别人回复不同意见就认定pr,还 特地 截图。
    2、答主你其实就是要黑这些网站,所以逻辑混乱答非所问。

    我的回复是:
    1、截取出来有什么问题吗?是准备以后删除吗?臆测,你这么肯定你是对的?还是你也是?
    2、说道答非所问这件事,还是让我们回顾想刚才两张截图吧?不是pr号最擅长的吗?
    而关于黑和我的回答的先后关系。不正是你现在在颠倒吗?
    我正是因为先回应了李德生多次评论。我觉得就是因为我回答中了核心问题,因此,才引来了你。于是从,无好感到厌恶的心态转变。所以在我看到其他相关问题的时候,特别留下我的想法。
    同时,
    我在这里重复说下。我现在就是对此类网站不抱有好感。最开始源自泄露电话,然后源自你。 我质疑所有类似网站内容里关于隐私电话获取渠道的合法性。
    丢掉饭碗?你怎么不说说自己做什么的呢?

    梳理的已经比较清楚的了,不过既然李德生他还在源源不断的回复,我就整理下,按照他的要求,贴一下

    本来的确懒得回复了,没必要学狗。毕竟几个小圈意味大家已经看得出了。
    就把两个大圈内容总结下:
    1、变更以后要马上登记呀,不登记后果严重呀
    2、答主你没见过融资吧,所以听不懂在说什么吧。

    回复:
    1、说的好像变更以后可以不去登记一样,这个是一套流程。增资手续完毕以后,网站上工商网站实时就能查询到信息了。
    如果你没实际操作过,就不要百度了。
    去档案局调取章程,和在工商增资之类的变更流程,都是在一套里面的。
    我操作过,你操作过没有?
    2、不好意思,以上经验需要融资吗?
    摊手。
    你见过这么多融资,却连实际增资流程都没见过。

    最后截图个近期的

    为了专门让我注意到,你们知道这个pr号还专门给我点了个赞吗?哈哈哈哈

    挺孜孜不倦的,还在我没回复的情况下找这篇回复,再次回复。
    别人对你的佣金是按字数结算还是按次数结算?

    以上。
    2017年1月19日。

    后文为原文(加了part1、2、3、4和备注,引用部分为原文),可能刚才编辑稍微剪切了点原文,都应该补上了。如果谁有截图全部原文也可以贴,应该没修改。

    ————

    part1(原回答)

    数据来源政府网站
    我不明白,这些查询系统能多查出点啥?意义在哪里?

    ————

    part2(第一条质疑出现)

    大概误读了语气,于是我更新了如下内容

    不就是利用百度搜不到政府查询的页面吗?
    不就是利用百度可以做sem推广吗?
    数据来源不就是政府网站吗?
    每次搜索爬虫软件回去爬,搜过的就记录在数据库。

    同时我搜索了这个企查查作为案例

    好,既然有人质疑,我就撕逼下这些再加工网站。

    企查查是吧?
    苏州朗动网络科技有限公司旗下网站

    那就以你们自己为例好了。
    这是政府查询界面(答主在上海,上海的显示界面没江苏好看):

    这是企查查的界面:

    政府网站输入公司名称后跳出验证码:
    (就是为了防止你们这些网站老去爬政府网站资料然后卖钱)
    企查查之类的网站可以先给你看一部分内容:
    政府网站输入了验证码后,显示如下,似乎是比企查查简单:

    那么我们点击进去看看。
    政府网站如下:
    可以看到政府网站畅通无阻。
    有非常详实的工商资料。

    我们在看看所谓的企查查。
    哦豁,人为加了个门槛。
    还。要。注。册。
    你和我说差距?
    我的确感觉到了差距。
    企查查,真是麻烦。

    另外我可以想象,会说有第三方评价,有公司的口碑之类的信息?
    这种就和招聘网站的评价一样。鸡肋。
    因为数据源缺乏,评价如何做到真实?
    实名评价,如果没有交易,一样是耍流氓。

    ————

    part3(疑似pr的李德生出现,连发两条,第一条的语气我应该没读错,毕竟可以联系上下文。)

    于是我更新了下面的截图和回复

    可能戳痛到什么神经了?
    OK,看来不少用户还是要使用关联方查询。

    我不认为方便获取就是对的。
    像天眼查还会收录法人联系方式,这合法?
    听说过非法获取公民信息罪?

    另外,我们说下时效性的问题。
    如何保证数据的实时传递?
    在每次查询的时候同时爬取?还是通过某个周期爬取?
    我自己公司年初更改的注册资本,前两天天眼查发来信息说他们数据库刚收录的工商变更。
    所以你们的关联查询一定是正确的?
    还是说你们的资本对接的尽职调查之类的只要大致正确就可以了?

    注册用户,一定是为了方便从这些注册用户上获利为目的的。
    甚至可以反向向被查询公司提供谁查询了你,这项业务。

    ——————–
    part4(然后李德生开始孜孜不倦了)
    于是我更新了如下内容

    看来真的是踩到某些利益相关人士的尾巴了。

    你给我个政府公示企业法人电话的官方渠道给我瞅瞅?我想知道有什么地方是公布公司座机以外的电话是合法的。
    公示是公示的信息,隐私是隐私的信息,聚合在一起就没问题?
    不要混淆视听OK?

    另外,我倒是想知道你再哪个小地方改变了注册资本可以不备案的?这些都是一套既定流程,当你改注册资本等信息的时候是必须要修改章程的。不晓得你再的地方是个什么操作流程?还是你没有实际操作过?

    既然是通过爬取网络数据获得的关联方,大不了多搜索几次。又管线下跑断腿什么事情呢?
    而如果你们部分数据来源是通过线下的,那我相信一定不是一次一次针对某个企业,而是批量获取。那么问题来了,你敢不敢公开你们的获取渠道?

    长点眼睛,不要没看清楚就急吼吼的反驳。我指的是官方已经更新的信息,而此类网站并非实时的问题。你转移视线是什么目的?

    你是企查查的pr?你比我这青蛙站的高好多哟,要注册个小号跑来发?

    以上,最新的总结回复已经放到最前了。这个回答懒得更新了。

    基本已经讲清楚这个事情了。

    没必要颠来倒去重复胡搅蛮缠的提问。

    毕竟,回答了也视而不见

我来回答

Captcha 点击图片更换验证码