数据挖掘 - 12Reads管理问答

拟合度大于1，可以称之为过拟合吗？

Ray King 2017-08-08 1894 次浏览

对离散数据进行拟合，拟合度大于1，能否称之此现象为过拟合？

查看全文

通过wireshark获取斗鱼TV弹幕是否属于数据挖掘？

AcFun 2017-08-07 1295 次浏览

只用简单的说一下是或不是就可以，我知道知乎上一定有兄弟一下就看穿我的目的了。顺便，如果是的话我需要买什么水平的书？

查看全文

有这样一个问题，我有20个数据文件，每个数据文件都是从单独设备导出，每个数据文件包含5w条左右的数据，每条数据包括四个类型的数据：时间，自身设备名称，信号强度，对方设备名称。说明：1. 因为信号强度这个值会和设备之间的距离有关系，所以理论上，信号强度越高，设备间距越小。2. 因为信号的扫描有时间要求，也会受其他条件影响，所以可能会出现某些时刻，距离近的设备，信号值可能不是最小。3. 假定20个数据文件的数据中的时间是同步的，没有差异。需求：1. 如何处理这20个数据文件，通过归类，计算得出，在时间轴上，任意时刻哪两个设备之间距离最近？2. 如何处理在20各数据文件，通过归类，计算得出，在时间轴上，制定某个设备，找出与其最近的设备？

查看全文

因变量是分类变量自变量有连续变量也有分类变量用SPSS的什么方法做分析？

Helen Chen 2017-08-07 3326 次浏览

因变量是分类变量，自变量有6-7个，有连续变量也有分类变量，应该用SPSS中的什么方法做呢？

查看全文

如何自动提取论文中的作者单位名称？

张传亭 2017-08-06 1284 次浏览

比如说我有一系列研究者的工作单位信息：作者A：High Performance Network Laboratory, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China 100190作者B：Mohammed V Agdal University, Rabat and High School of Technology, Sale作者C：Department of Computer Science, University of Waterloo, Waterloo, Ontario, Canada; University of Indonesia, […]

查看全文

网络爬虫是否侵权？

Robot 2017-08-06 1024 次浏览

本人普通学生一名，参与某公司数据抓取任务已有一年半，抓取网站过百，总条数过三千万，也抓取过像百度文库这种大型网站免费资源近千万条，包括文档的下载，所有下载的文件不完全统计超过10TB，毕竟给公司做的，但也考虑过版权问题，这是不是都属于侵权？一般网络爬虫如何才能免于法律问题？

查看全文

机器学习是读统计/数学好,还是读计算机?

whoisit 2017-08-06 1051 次浏览

感觉机器学习/数据挖掘更多是和数学有关,但是看到一些大牛的背景都是计算机,比如陈天奇,很多大牛教授也基本都是计算机学院而不是数学学院的,所以如果想从事机器学习,是读个数学统计学位好还是计算机学位好呢

查看全文

大数据分析到底需要多少种工具？

Robot 2017-08-05 1488 次浏览

查看全文

机器学习中样本特征抽取后的特征数目不一致如何解决?

黄利广 2017-08-05 1079 次浏览

在图像识别中,用到很多特征抽取的方法, 可是每一个图片所抽取出来的信息不一样, 例如一个建筑,它所包含的信息量有100个, 而一朵花却没有那么多个, 如果进行分类器训练,我们的特征数目不一致,那要如何去解决呢?求教!

查看全文

同样是跑随机森林，为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多？

老胡 2017-08-05 1032 次浏览

原数据只是抽出来的一个3万来条的样本，大约60%为0，40%为1。单机用的是R下的randomForest包，准确率能有85%，这个结果还是蛮可靠的。但是同样的数据，放到服务器上用Spark的MLlib跑，准确率只有60%左右，混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了，这是怎么回事呢？

查看全文

1 … 46 47 48 … 67

找回密码

拟合度大于1，可以称之为过拟合吗？

通过wireshark获取斗鱼TV弹幕是否属于数据挖掘？

通过信号强度如何归类设备距离？

因变量是分类变量自变量有连续变量也有分类变量用SPSS的什么方法做分析？

如何自动提取论文中的作者单位名称？

网络爬虫是否侵权？

机器学习是读统计/数学好,还是读计算机?

大数据分析到底需要多少种工具？

机器学习中样本特征抽取后的特征数目不一致如何解决?

同样是跑随机森林，为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多？

帐户注册

登录

找回密码