如何对千万级别(记录数)的数据做分类、聚类、购物篮分析? 举报 理由 举报 取消 如何从传统的基于内存的数据挖掘过渡到分布式、可处理海量数据集的挖掘 2017年12月4日 3 条回复 1303 次浏览 学习,数据处理,机器,海量,算法
回复 ( 3 )
建议尝试一下excel的数据挖掘外接程序,这个算是入门门槛最低的,可以应对千万级数据量的数据挖掘分析工具了。
基本可以完成你所说的工作目标。
因为现有传统的一些分类、聚类、关联规则算法处理的记录大概就是几万条记录,如果数据量太多,则内存是满足不了需求的,除了现在比较流行的Map/Reduce框架、Mahout外,还有什么方法可以处理上千万条记录的分类、和聚类操作。
你这么问不会得到任何有内容的回答。花点钱请个好点的工程师吧。再说千万条根本不需要上分布式