帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

数据挖掘过程疑问?

数据挖掘没人带,自己琢磨现在有一个数据集和spark集群关于分词1、在单机分词,生成分词后的数据集,然后在spark上进行挖掘2、直接在spark集群进行分词,挖掘哪种方案合适?如果是1的话,单机执行效率会不会很慢如果是2的话,如何在分词时加载自定义词库,好多分词工具好像都不支持从hdfs中获取词典吧,那如何保证在集群中每个节点可以加载自定义词典,难道每个节点都要存放一份关于算法选择和验证如果数据量很大,跑一次要很久,那么如何选择合适的算法和验证1、使用spark集群抽样,使用部分数据来选择2、取一部分数据,使用scikit-learn来选择,验证完成后在使用spark集群哪种方案比较合适?

查看全文