爬虫爬到的上T的数据选用什么数据库进行分布式保存呢? 举报 理由 举报 取消 hive 、mongodb、inpala?哪个好?比如爬到的搜狐新闻数据,一条一条的数据。 2017年12月24日 1 条回复 1224 次浏览 信息技术,分析,数据,数据库
回复 ( 1 )
谢邀,如果按照你所提供的选择来说,那就mongodb吧。
hive是离线分析的,当做是数据仓库来使用,采用mp进行分布式操作,比较慢。
impala是是当做实时查询系统来使用,比hive快一个数量级以上。
你是抓取网页后的存储那就用mongodb吧,半结构化数据,用hbase也是可以的。