智库如何采集数据呢?

理由
举报 取消

国内和国外的智库机构是如何采集某个行业的数据的?就是通过问卷调查吗?有没有什么比较自动化的工具,比如网络爬虫在网络上爬取指定的数据,或者在不同的城市、企业有常设的数据采集点和数据采集员?数据采集回来通常都是用什么样的工具进行分析?主要是靠专业人士人工分析吗?

2017年6月14日 8 条回复 1566 次浏览

回复 ( 8 )

  1. 扣小米
    理由
    举报 取消

    谢邀。

    其他智库我不清楚,但我实习过的德国一家经济研究机构的数据采集我是知道一些的。

    我在这里面写过一部分: 在经济学智库工作是怎样的感受? – 扣小米的回答

    我当时接触过的数据库是关于德国企业的创新数据,叫做Mannheim Innovation Panel,因为这家研究所是在德国曼海姆市(Mannheim)。

    数据包括从1993年以来每年德国企业的创新投入、创新产出、研发等等,是我见到的关于企业创新方面最详细的数据库。具体包括多少家企业我忘记了。

    采集数据的方法就是问卷调查,研究所每年都会向企业发放问卷,收集数据。维护这个数据库算是我们那个部门最重要的工作任务之一,有多位经济学家负责,并有专门的人员来负责问卷的修改、发放、收集和整理。同时共同协作的还有政府相关部门以及另外一家经济研究所。

    据研究所自己介绍,他们通过这个数据库已经完成了超过130篇的discussion paper。

    如果想使用这个数据库,需要一系列申请手续。当时我需要事先填写表格,类似于保密协定的文件,要求数据不可外泄,然后才能获取帐号密码。总之手续非常严格。

    去年我还收到研究所的邮件(当时我已经离开那里好久了),询问过去一年是否有使用该数据库发表文章的,如果有的话请告知他们。他们对数据库从收集、使用到最后的汇总做的都非常好。以至于当时有一位清华大学的教授也对这个数据库赞赏不已。毕竟现在的经济学研究,谁能够掌握高质量的数据,谁就能在科研当中占据领先位置。

    据我所知,中国关于企业创新的专业数据库基本上没有,所以这对研究中国的创新制造了不少障碍。

    另外,该研究所与中国的复旦大学一起做的关于中国经济景气指数的数据,好像也是通过问卷收集的。

    至于题主说的写爬虫收集,我就不知道了,可能也有,但应该不是主要方法,毕竟爬虫谁都能写,这就显示不出智库的优势了。而问卷调查这种需要大量人力物力获取高质量数据的方法,只有那些有钱有影响力的机构才能做到。

    我们那个部门的数据分析工具主要是stata,不过也有少数人用R或者其他工具。题主最后问是否是专业人士人工分析。肯定是专业人士分析的,也肯定是人工的,人工用计量软件分析。

    另附一个关于这个数据库的链接。同时研究所每年会发布一些关于这一数据库的公开报告,这个链接里也有下载,不过报告只有德语的,但一些图表不需要德语也能看懂。

    ZEW Projekt – Mannheim Innovation Panel: Innovation Activities of German Enterprises

  2. 用户头像
    理由
    举报 取消

    谢邀。我没有在国内的智库工作过,只能分享一下之前在美国智库工作时候的一些经验。

    智库收集数据,一般经过分析之后会有三种主要的用途:

    1. 作为改变公共政策的依据
    2. 发表研究
    3. 在公共媒体上撰文

    对于前两者而言,数据的可靠程度非常重要。因此,大多数时候都会使用权威的数据库,比如美国人口普查局(US
    Census Bureau)、美国劳工局统计数据库(Bureau of Labor Statistics)等。如果不是用这样权威数据的话,得到的结论很容易被质疑。这里来点干货吧——我自己整理了一下在智库工作期间主要用到的数据库,见此2014年写的博客文章。文中简单介绍了以下几个数据来源:

    • DataFerrett (US Census Bureau):包括了CEX,
      CPS, SIPP
    • Bloomberg Terminal
    • Bureau of Economic Analysis (BEA)
    • Bureau of Labor Statistics (BLS)
    • Quandl
    • NBER
    • CBO
    • Pew Research Center

    如果在公共媒体上撰文,对数据可靠度的要求会稍微放松一些。这个时候手段就会更多一点,比如引用其它研究报告,或者从各种渠道的API获取数据(免费和付费的都有)。举两个例子。我参与过的一次研究是分析美国房地产价格及是否存在泡沫,我们用的数据是来自美国最大房地产公司Zillow提供的API,包括房屋信息、房屋市场价格、租金价格等等。另外一次,我们研究公众对待竞选活动的态度,比如对某个候选人的某次造势活动是正面评价更多还是负面评价更多,用的数据是从Twitter的API获取的推特,对其做情感分析。这几个例子在智库行业可以算得上是多样化的数据源了吧,这样的项目总体来说还是比较少的,大概也就一两成左右。

    这两个例子都是与别的公司合作,也从侧面反映了智库的行业定位。智库的核心价值不在于数据采集,而在于基于数据分析产生对政策的深刻理解。所以很多时候,智库不会花很多工夫在数据采集上(因此——回答题主的子问题——一般不会有常设的数据采集员)。如果不能轻易地获得,那么就花钱问别的公司机构买呗。如果真的需要做调查问卷,智库一般也不会自己做,而是外包给Nielsen之类的公司。像写爬虫之类的方法,如果内部能够比较容易地实施,那么智库就会采用(我之前工作的时候写过一个简单的爬虫去收集一个城市所有的药店地址和联系信息);如果很麻烦或者耗时很久,那么就外包给别人。在这一点上,方法并不那么重要,只要保证拿到有质量保障的数据就行。

    至于分析数据所用的工具,也十分取决于最终目的。我之前的智库用Stata最常见,但如果用R、SPSS、SAS建模能得到结果,那也一样可以。原则依旧相同:能达到目的就行。分析过程一般先由研究助理初步处理,之后由研究人员进一步深入分析。具体分工参见我的另外一篇知乎回答:进入智库工作是怎样的一种体验? – 符号的回答

  3. 匿名用户
    理由
    举报 取消

    上海某智库,主要研究国际关系。

    以前主要靠手工收集和订阅数据,因为以前数据量少而且公开程度不高。

    现在也开始借助信息化手段辅助收集。使用爬虫收集公开信息,或者是摘要。入库之后方便研究员二次搜索

  4. ChinaMRV
    理由
    举报 取消

    与政策制定有关的“智库”(在中国叫“技术支撑单位”),使用百度搜索采集数据,数据来源一般是行业研究报告这些二手数据。连翻墙都不用。

  5. 智选SDK
    理由
    举报 取消

    一般都在智选SDK找移动数据。

  6. 文子先
    理由
    举报 取消

    首先要跑得快

  7. 匿名用户
    理由
    举报 取消

    就我所知道的,其实国内某些(有一定名气的)智库,就是派有这方面素养和嗅觉的人手动去各个相关网站上扒东西汇总

    国外的话不太清楚,想必这种方式也是存在的。

    爬虫当然也会有啦。

  8. 匿名用户
    理由
    举报 取消

    打开谷歌,复制粘贴

我来回答

Captcha 点击图片更换验证码