数据挖掘 - 12Reads管理问答

我训练了三组text classifier有什么问题？

立党 2018-02-13 827 次浏览

一组是Decision Tree，一组是SVM，一组是Adaboost，为什么最后留出1/4的数据validation时正确率都在95%以上，但是提交测试时正确率只有75%？大概1800组数据，维度是20000左右的sparse数据。（遇到这种情况很奇怪，希望能听到大家的见解和常见调参数的技巧，我怀疑是overfitting了）

查看全文

机器学习应该准备哪些数学预备知识？

卡牌大师 2018-02-11 1244 次浏览

数据分析师，工作中经常使用机器学习模型，但是以调库为主。自己一直也在研究算法，也裸写过一些经典的算法。最近在看PRML这类书籍，感觉有点吃劲，主要是公式推导看不懂，很多数学符号不知其意。也特地学过线性代数、微积分等，但是然并卵，还是看不懂大段的公式以及那些神奇的矩阵计算~机器学习新手，想前来问下，有没有哪些数学知识是可以弥补这一类缺陷的?能否具体的说一些知识点或者相关的文章和书籍？感谢~~

查看全文

单从一个人的名字如何能找到他的QQ电话，微信，甚至其他深入信息？

莫诗人 2018-02-11 689 次浏览

现在网络信息这么发达，网上人肉事件也多，做数据这方面的有知道用什么方法达到这样的目的么

查看全文

逻辑回归中同时使用离散特征和连续特征有什么讲究么？

白鹏 2018-02-11 1210 次浏览

连续特征比如历史点击率离散特征比如广告id 如果把离散特征映射到 0.5 ～1.5的区间会有一些好处么？

查看全文

目前公司模型都是使用R或者PYTHON在线下建好模型，保存好模型参数，然后打包成接口，供JAVA进行调用。那么现在的问题是：1. 打包上线的模型长期不会进行更新，因为模型参数被固定了，也不会去主动学习新的资料2.模型出现问题很难找出原因。因为JAVA只会报错JAVA的error，不会报出R或者PYTHON的error3. 本地离线建模受到机器配置的限制。经常几个G的数据电脑就会卡死，或者out of memory尝试使用JAVA直接建模，但是发现自己JAVA功底很弱，很难写出像样的算法。。特地想请教下各位前辈：1. 你们是怎么部署模型上线的？2. 怎么使得模型不断的学习新的资料3. 除了打包这种方式，是否还有其他的更好的方式进行上 […]

查看全文

请各位大拿帮忙分析一下，使用ELK做日志数据挖掘的优缺点？

innerpeace 2018-02-10 773 次浏览

本人之前是做业务的日志分析，主要通过mysql或者python写脚本进行离线分析，项目会根据数据量大小使用java或者hadoop做实时分析。最近开始接触日至分析，这边主要基于ELK开发，个人有几个疑问，可能跟我接触的比较浅有关：1、elk带的kibana平台提供的图表类型比echart少太多，而且图表展示很不好看；2、对ES解析后的字段，通过kibana做分析，不能做多表join、字符串split、某个字段内like等自己通过脚本的二次分析（或者是我不熟ES的语法）3、后期我们打算对结构化的日志进行多维分析、建模分析，ELK能满足吗？

查看全文

凸优化中的minimal是如何定义的？

Jiawei Fan 2018-02-09 773 次浏览

这里的minimal是咋定义的，为啥x1是minimal，x2不是

查看全文

我本科是211学校计算机专业的，现在在985学校读能源环境工程专业，就业方向应该如何确定？

徐哲炜 2018-02-09 1529 次浏览

我本科是211学校计算机专业，现在因为某些原因在读985学校能源环境工程硕士，主要配合做数据挖掘工作，但我的兴趣还是在写代码，搞软件开发、网页开发上。目前数据挖掘的工作没有老师指导，基本靠自学自己研究。现在感觉很迷茫，觉得毕业以后跟计算机专业的人去比，竞争力不够；要做数据挖掘方面的工作，没人指导感觉不靠谱，而且需要用到一些数学理论，基础不是很好，也缺乏竞争力；做环保，又觉得不是特别感兴趣，而且待遇一般，不知道以后的路要怎么选择。总之我现在的情况是，编程有基础，对火电厂污染物的处理有一些了解，内心希望去互联网公司工作，如果能有互联网+环保的单位我觉得比较合适，但是对目前的现状不是很了解，希望能帮我指点一下，万分感谢！！！

查看全文

1 2 3 4 … 67

找回密码

随机森林的采样方法为什么选择有放回形式的？

我训练了三组text classifier有什么问题？

大数据是否会消灭大量证券分析师的饭碗？

机器学习应该准备哪些数学预备知识？

单从一个人的名字如何能找到他的QQ电话，微信，甚至其他深入信息？

逻辑回归中同时使用离散特征和连续特征有什么讲究么？

机器学习模型如何上线或者online学习?

请各位大拿帮忙分析一下，使用ELK做日志数据挖掘的优缺点？

凸优化中的minimal是如何定义的？

我本科是211学校计算机专业的，现在在985学校读能源环境工程专业，就业方向应该如何确定？

帐户注册

登录

找回密码