对离散数据进行拟合,拟合度大于1,能否称之此现象为过拟合?
查看全文通过wireshark获取斗鱼TV弹幕是否属于数据挖掘?
只用简单的说一下是或不是就可以,我知道知乎上一定有兄弟一下就看穿我的目的了。顺便,如果是的话我需要买什么水平的书?
查看全文通过信号强度如何归类设备距离?
有这样一个问题,我有20个数据文件,每个数据文件都是从单独设备导出,每个数据文件包含5w条左右的数据,每条数据包括四个类型的数据:时间,自身设备名称,信号强度,对方设备名称。说明:1. 因为信号强度这个值会和设备之间的距离有关系,所以理论上,信号强度越高,设备间距越小。2. 因为信号的扫描有时间要求,也会受其他条件影响,所以可能会出现某些时刻,距离近的设备,信号值可能不是最小。3. 假定20个数据文件的数据中的时间是同步的,没有差异。需求:1. 如何处理这20个数据文件,通过归类,计算得出,在时间轴上,任意时刻哪两个设备之间距离最近?2. 如何处理在20各数据文件,通过归类,计算得出,在时间轴上,制定某个设备,找出与其最近的设备?
查看全文因变量是分类变量 自变量有连续变量也有分类变量 用SPSS的什么方法做分析?
因变量是分类变量,自变量有6-7个,有连续变量也有分类变量,应该用SPSS中的什么方法做呢?
查看全文如何自动提取论文中的作者单位名称?
比如说我有一系列研究者的工作单位信息:作者A:High Performance Network Laboratory, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China 100190作者B:Mohammed V Agdal University, Rabat and High School of Technology, Sale作者C:Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada; University of Indonesia, […]
查看全文机器学习是读统计/数学好,还是读计算机?
感觉机器学习/数据挖掘更多是和数学有关,但是看到一些大牛的背景都是计算机,比如陈天奇,很多大牛教授也基本都是计算机学院而不是数学学院的,所以如果想从事机器学习,是读个数学统计学位好还是计算机学位好呢
查看全文机器学习中样本特征抽取后的特征数目不一致如何解决?
在图像识别中,用到很多特征抽取的方法, 可是每一个图片所抽取出来的信息不一样, 例如一个建筑,它所包含的信息量有100个, 而一朵花却没有那么多个, 如果进行分类器训练,我们的特征数目不一致,那要如何去解决呢?求教!
查看全文同样是跑随机森林,为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多?
原数据只是抽出来的一个3万来条的样本,大约60%为0,40%为1。单机用的是R下的randomForest包,准确率能有85%,这个结果还是蛮可靠的。但是同样的数据,放到服务器上用Spark的MLlib跑,准确率只有60%左右,混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了,这是怎么回事呢?
查看全文