具体是这样的,原数据在表格中有4400行,但是用r语言读取了XX.CSV以后,变成了只有3800行。我用fix(XX)以后发现少掉的那些是缺失值,但是用excel打开该文件后发现那些在r中的缺失值其实不是缺失的,就是他读取上去了以后变成了缺失的。不懂这是为什么,这些数据是含有中文的分类属性
查看全文r语言,某一列中的是由各种类型的数据组成的该怎么合并数据框来处理?
某一列中的数据是由多种类型的数据合并成的,比如说是因子啊,字符啊之类的数据合并而成,那么想拿他和别的数据合并成数据框该怎么做
查看全文有哪些比较好的做异常值检测的方法?
数据预处理的好坏,很大程度上决定了模型分析结果的好坏。(Garbage In Garbage Out!)其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环。方法也是多种多样。比如有基于经典统计的方法——三倍于标准差之上的数据为异常值等等。由于异常值检验,和去重、缺失值处理不同,它带有一定的主观性。所以,想请问一下各位大牛,平时你们更愿意相信哪种或哪几种异常值检测的方法。谢谢!~
查看全文