帐户注册

用户名*

邮箱*

密码*

确认密码*

头像

浏览

验证码* 点击图片更换验证码

登录

找回密码

忘记密码了？输入你的注册邮箱，并点击重置，稍后，你将会收到一封密码重置邮件。

一个爬联系方式的爬虫该如何选择数据库？

举报

理由

举报取消

写了一个爬联系方式的爬虫，email，电话，地址等有八九个键值，每个人大概有不同的三四样信息，大概20万条数据。是该用mySQL类的数据库还是noSQL？希望可以根据类目，比如电话，快速获得含有这个类目的entry，并且以后可以做一些简单的趋势分析。

2017年11月12日 5 条回复 1260 次浏览

MongoDB,Python,分析,数据,数据库,爬虫,计算机网络

用户头像

发起人：査昊宇 初入职场

Yesterday is history,tomorrow is a mystery,but today is a gift.That’s why it is called the “present”.

回复 ( 5 )

王德明初入职场
0
举报回复
理由

举报取消

mysql
梵高初入职场
0
举报回复
理由

举报取消

sqlite 就好了.
刘志钊初入职场
0
举报回复
理由

举报取消

请教一下，联系方式如何防止被爬虫？
JingSQ 初入职场
0
举报回复
理由

举报取消

因为要存储联系方式，可能过段时间会有新的联系方式出现，比如现在的微信号码等，且每个人的都不一样。这时候最好是使用schema free的系统。

如果自己搭建系统的话，可以用ElasticSearch或者hbase。

如果用云产品，直接用这个开放结构化数据服务OTS_海量数据存储
杨皓然初入职场
0
举报回复
理由

举报取消

如JingSQ所说，这个场景用schema free的数据库比较好。20万条数据，mongodb单机就搞定了。如果数据规模大到几十亿条甚至更多的时候，用开放结构化数据服务OTS_海量数据存储。在这个规模上，你不会想自己运维hbase/cassandra等系统的。

我来回答