数据挖掘 - 12Reads管理问答

机器学习中的数据预处理有哪些常见/重要的工具？

病退统计员 2017-12-21 1715 次浏览

想要为以后可能要做的事情做下准备，到目前为止做过分析拿到手的还都是经过一串pipeline预处理过的比较干净的数据，想要知道搭建这些pipeline一般需要哪些工具。比如，未经处理的机器生成的文本log一类，要处理成可以进行分析、建模的形式一般需要哪些步骤，哪些工具是比较必要的？

查看全文

机器学习的本质都是根据过去预测未来么？

Robot 2017-12-21 770 次浏览

如果是的话，有什么办法能跳出这个限制吗？

查看全文

想对处理的文本中的同义词进行替换，拟采用的方案是，比如读入同义词列表{Ah14C02= 心肝宝贝心肝宝贝宠儿命根子掌上明珠命根宝贝儿}，然后扫描文本，将出现在这个列表中的所有词语都替换为第一个：心肝，或者前面的代码：Ah14C02。但在实际的操作中却遇到了问题，同一个词存在多义，比如对于前面的“宝贝”，还同时存在于列表{Ba08A01= 宝物宝贝宝珍琛珍品珍宝至宝无价宝瑰}中，这时候如果文本中遇到了“宝贝”这个词就不知道应该替换为“心肝”还是“宝物”了。因为自己不是相关方向的，谷歌也没有找到其他人遇到相关的问题，所以来知乎寻求一下大家的帮助，感谢！

查看全文

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

毅然 2017-12-21 2251 次浏览

如题，系统搭建在公司的虚拟机集群上，这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘，我感觉用多线程，多进程的老方法，直接在服务器上跑，省去那些集群间的调度和网络io，是不是会更快一些？小白不懂,求大侠相助

查看全文

R语言randomForest包做回归预测需要交叉验证么？

lulu 2017-12-20 1115 次浏览

预测得到的mse是基于oob得到的么，那还需要交叉验证么

查看全文

请问预测短期的交通流量一般输入样本是什么样的？

方木 2017-12-20 736 次浏览

小弟想利用PeMS系统中的数据进行交通流量预测，但不懂的如何处理前期的交通流量数据，请各位大神指点一二！

查看全文

点击率预估问题中如何去验证数据的分布是不是在变化的？

屈伟 2017-12-20 1523 次浏览

现在样本数据流是按时间顺序存储的，我如果想分析训练数据是不是在变化（即存在概念漂移的），除了直接用在线学习的方式上线看效果外，有没有其它的指标可以看出来？

查看全文

12G的已分好词的中文文本用tf

雷雷 2017-12-20 1672 次浏览

我尝试了拿jieba分词库里的提取关键词的方法，已经跑了24小时了，并没有出结果，希望大家给些建议，谢谢~

查看全文

马上就要选专业了，计算机科学与技术和软件工程哪个好？

李泽汗 2017-12-19 1384 次浏览

我是计算机大类的大一学生，未来会有计算机科学与技术和软件工程两个专业可选，我以后想往大数据和数据挖掘方面发展，希望大家給我一些意见。谢谢！

查看全文

如何优雅地找到一个学校或公司的所有名称？

李强 2017-12-19 1501 次浏览

有些学校或者公司，会不止有一个名称或缩写，例如University of Science and Technology of China, USTC;Beihang university, BUAA; 再比如UC Berkeley, University of California,Berkeley, Berkeley, UCB;像一些研究所Agency for Science, A*STAR;怎么才能优雅的找到一个给定机构的所有合理名称呢？

查看全文

1 … 16 17 18 … 67

找回密码

机器学习中的数据预处理有哪些常见/重要的工具？

机器学习的本质都是根据过去预测未来么？

文本处理同义词替换中的多义词问题？

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

R语言randomForest包做回归预测需要交叉验证么？

请问预测短期的交通流量一般输入样本是什么样的？

点击率预估问题中如何去验证数据的分布是不是在变化的？

12G的已分好词的中文文本用tf

马上就要选专业了，计算机科学与技术和软件工程哪个好？

如何优雅地找到一个学校或公司的所有名称？

帐户注册

登录

找回密码