如题所示,大家觉得在模型训练中,正负样本选取已那种比例比较好,是基于样本的分布选取比例,还是直接1:1,或者与模型有关呢
查看全文大数据分析、数据挖掘用什么例子来练习?
对于数据分析、数据挖掘,知识相对零散,对照教材上的简单例子训练不够系统。请问入门实战内容(非入门基础知识)大家有什么建议?再强调一下,不必贴知乎已有的关于基础知识的回答,比如建议看《用python做数据分析》、统计学教材、pandas、sklearn文档什么什么的,要实战的,有接近实际的例子的。非常感谢!
查看全文Hadoop中java.lang.OutOfMemoryError: Java heap space?
以下是报错代码,求大神解决 我跑的是8.6G的数据。系统是Ubuntu操作系统我的理解是Hadoop的内存不够 ? 请告诉我是不是? 如果是该怎么设置 ? 我是用终端运行JAVA程序, 没有用eclipse,也没有用tomcat
查看全文有哪些比较好的做异常值检测的方法?
数据预处理的好坏,很大程度上决定了模型分析结果的好坏。(Garbage In Garbage Out!)其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环。方法也是多种多样。比如有基于经典统计的方法——三倍于标准差之上的数据为异常值等等。由于异常值检验,和去重、缺失值处理不同,它带有一定的主观性。所以,想请问一下各位大牛,平时你们更愿意相信哪种或哪几种异常值检测的方法。谢谢!~
查看全文如何利用matlab提取网页中的表格,并将表格按照一定的格式输入excel?
像中国腐蚀与防护网中的这种零散的表格,要把它提取出来并排列成下图的样子:
查看全文学会用聚类算法进行数据挖掘需要怎样的数学基础?
目前有一个需要做的工作是基于经纬度进行聚类,数学只学过微积分,线代,概率统计,复变这样的基础课程。
查看全文java/c/c++在数据挖掘中有什么用?
请问一下java/c/c++在数据挖掘中的具体作用,我觉得大部分时间用python就可以了。。。
查看全文