一个爬联系方式的爬虫该如何选择数据库? 举报 理由 举报 取消 写了一个爬联系方式的爬虫,email,电话,地址等有八九个键值,每个人大概有不同的三四样信息,大概20万条数据。是该用mySQL类的数据库还是noSQL?希望可以根据类目,比如电话,快速获得含有这个类目的entry,并且以后可以做一些简单的趋势分析。 2017年11月12日 5 条回复 880 次浏览 MongoDB,Python,分析,数据,数据库,爬虫,计算机网络
回复 ( 5 )
mysql
sqlite 就好了.
请教一下,联系方式如何防止被爬虫?
因为要存储联系方式,可能过段时间会有新的联系方式出现,比如现在的微信号码等,且每个人的都不一样。这时候最好是使用schema free的系统。
如果自己搭建系统的话,可以用ElasticSearch或者hbase。
如果用云产品,直接用这个开放结构化数据服务OTS_海量数据存储
如JingSQ所说,这个场景用schema free的数据库比较好。20万条数据,mongodb单机就搞定了。如果数据规模大到几十亿条甚至更多的时候,用开放结构化数据服务OTS_海量数据存储。在这个规模上,你不会想自己运维hbase/cassandra等系统的。