我训练了三组text classifier有什么问题?
一组是Decision Tree,一组是SVM,一组是Adaboost,为什么最后留出1/4的数据validation时正确率都在95%以上,但是提交测试时正确率只有75%?大概1800组数据,维度是20000左右的sparse数据。(遇到这种情况很奇怪,希望能听到大家的见解和常见调参数的技巧,我怀疑是overfitting了)
查看全文机器学习应该准备哪些数学预备知识?
数据分析师,工作中经常使用机器学习模型,但是以调库为主。自己一直也在研究算法,也裸写过一些经典的算法。最近在看PRML这类书籍,感觉有点吃劲,主要是公式推导看不懂,很多数学符号不知其意。也特地学过线性代数、微积分等,但是然并卵,还是看不懂大段的公式以及那些神奇的矩阵计算~机器学习新手,想前来问下,有没有哪些数学知识是可以弥补这一类缺陷的?能否具体的说一些知识点或者相关的文章和书籍?感谢~~
查看全文单从一个人的名字如何能找到他的QQ电话,微信,甚至其他深入信息?
现在网络信息这么发达,网上人肉事件也多,做数据这方面的有知道用什么方法达到这样的目的么
查看全文逻辑回归中 同时使用离散特征和连续特征有什么讲究么 ?
连续特征比如 历史点击率 离散特征比如 广告id 如果把离散特征映射到 0.5 ~1.5的区间会有一些好处么?
查看全文机器学习模型如何上线或者online学习?
目前公司模型都是使用R或者PYTHON在线下建好模型,保存好模型参数,然后打包成接口,供JAVA进行调用。 那么现在的问题是:1. 打包上线的模型长期不会进行更新,因为模型参数被固定了,也不会去主动学习新的资料2.模型出现问题很难找出原因。因为JAVA只会报错JAVA的error,不会报出R或者PYTHON的error3. 本地离线建模受到机器配置的限制。经常几个G的数据电脑就会卡死,或者out of memory尝试使用JAVA直接建模,但是发现自己JAVA功底很弱,很难写出像样的算法。。特地想请教下各位前辈:1. 你们是怎么部署模型上线的?2. 怎么使得模型不断的学习新的资料3. 除了打包这种方式,是否还有其他的更好的方式进行上 […]
查看全文请各位大拿帮忙分析一下,使用ELK做日志数据挖掘的优缺点?
本人之前是做业务的日志分析,主要通过mysql或者python写脚本进行离线分析,项目会根据数据量大小使用java或者hadoop做实时分析。最近开始接触日至分析,这边主要基于ELK开发,个人有几个疑问,可能跟我接触的比较浅有关:1、elk带的kibana平台提供的图表类型比echart少太多,而且图表展示很不好看;2、对ES解析后的字段,通过kibana做分析,不能做多表join、字符串split、某个字段内like等自己通过脚本的二次分析(或者是我不熟ES的语法)3、后期我们打算对结构化的日志进行多维分析、建模分析,ELK能满足吗?
查看全文我本科是211学校计算机专业的,现在在985学校读能源环境工程专业,就业方向应该如何确定?
我本科是211学校计算机专业,现在因为某些原因在读985学校能源环境工程硕士,主要配合做数据挖掘工作,但我的兴趣还是在写代码,搞软件开发、网页开发上。目前数据挖掘的工作没有老师指导,基本靠自学自己研究。现在感觉很迷茫,觉得毕业以后跟计算机专业的人去比,竞争力不够;要做数据挖掘方面的工作,没人指导感觉不靠谱,而且需要用到一些数学理论,基础不是很好,也缺乏竞争力;做环保,又觉得不是特别感兴趣,而且待遇一般,不知道以后的路要怎么选择。总之我现在的情况是,编程有基础,对火电厂污染物的处理有一些了解,内心希望去互联网公司工作,如果能有互联网+环保的单位我觉得比较合适,但是对目前的现状不是很了解,希望能帮我指点一下,万分感谢!!!
查看全文