一个爬联系方式的爬虫该如何选择数据库?

理由
举报 取消

写了一个爬联系方式的爬虫,email,电话,地址等有八九个键值,每个人大概有不同的三四样信息,大概20万条数据。是该用mySQL类的数据库还是noSQL?希望可以根据类目,比如电话,快速获得含有这个类目的entry,并且以后可以做一些简单的趋势分析。

2017年11月12日 5 条回复 880 次浏览

发起人:査昊宇 初入职场

Yesterday is history,tomorrow is a mystery,but today is a gift.That’s why it is called the “present”.

回复 ( 5 )

  1. 梵高
    理由
    举报 取消

    sqlite 就好了.

  2. 刘志钊
    理由
    举报 取消

    请教一下,联系方式如何防止被爬虫?

  3. JingSQ
    理由
    举报 取消

    因为要存储联系方式,可能过段时间会有新的联系方式出现,比如现在的微信号码等,且每个人的都不一样。这时候最好是使用schema free的系统。

    如果自己搭建系统的话,可以用ElasticSearch或者hbase。

    如果用云产品,直接用这个开放结构化数据服务OTS_海量数据存储

  4. 杨皓然
    理由
    举报 取消

    如JingSQ所说,这个场景用schema free的数据库比较好。20万条数据,mongodb单机就搞定了。如果数据规模大到几十亿条甚至更多的时候,用开放结构化数据服务OTS_海量数据存储。在这个规模上,你不会想自己运维hbase/cassandra等系统的。

我来回答

Captcha 点击图片更换验证码