帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

我训练了三组text classifier有什么问题?

一组是Decision Tree,一组是SVM,一组是Adaboost,为什么最后留出1/4的数据validation时正确率都在95%以上,但是提交测试时正确率只有75%?大概1800组数据,维度是20000左右的sparse数据。(遇到这种情况很奇怪,希望能听到大家的见解和常见调参数的技巧,我怀疑是overfitting了)

查看全文

机器学习应该准备哪些数学预备知识?

数据分析师,工作中经常使用机器学习模型,但是以调库为主。自己一直也在研究算法,也裸写过一些经典的算法。最近在看PRML这类书籍,感觉有点吃劲,主要是公式推导看不懂,很多数学符号不知其意。也特地学过线性代数、微积分等,但是然并卵,还是看不懂大段的公式以及那些神奇的矩阵计算~机器学习新手,想前来问下,有没有哪些数学知识是可以弥补这一类缺陷的?能否具体的说一些知识点或者相关的文章和书籍?感谢~~

查看全文

机器学习模型如何上线或者online学习?

目前公司模型都是使用R或者PYTHON在线下建好模型,保存好模型参数,然后打包成接口,供JAVA进行调用。 那么现在的问题是:1. 打包上线的模型长期不会进行更新,因为模型参数被固定了,也不会去主动学习新的资料2.模型出现问题很难找出原因。因为JAVA只会报错JAVA的error,不会报出R或者PYTHON的error3. 本地离线建模受到机器配置的限制。经常几个G的数据电脑就会卡死,或者out of memory尝试使用JAVA直接建模,但是发现自己JAVA功底很弱,很难写出像样的算法。。特地想请教下各位前辈:1. 你们是怎么部署模型上线的?2. 怎么使得模型不断的学习新的资料3. 除了打包这种方式,是否还有其他的更好的方式进行上 […]

查看全文

请各位大拿帮忙分析一下,使用ELK做日志数据挖掘的优缺点?

本人之前是做业务的日志分析,主要通过mysql或者python写脚本进行离线分析,项目会根据数据量大小使用java或者hadoop做实时分析。最近开始接触日至分析,这边主要基于ELK开发,个人有几个疑问,可能跟我接触的比较浅有关:1、elk带的kibana平台提供的图表类型比echart少太多,而且图表展示很不好看;2、对ES解析后的字段,通过kibana做分析,不能做多表join、字符串split、某个字段内like等自己通过脚本的二次分析(或者是我不熟ES的语法)3、后期我们打算对结构化的日志进行多维分析、建模分析,ELK能满足吗?

查看全文

我本科是211学校计算机专业的,现在在985学校读能源环境工程专业,就业方向应该如何确定?

我本科是211学校计算机专业,现在因为某些原因在读985学校能源环境工程硕士,主要配合做数据挖掘工作,但我的兴趣还是在写代码,搞软件开发、网页开发上。目前数据挖掘的工作没有老师指导,基本靠自学自己研究。现在感觉很迷茫,觉得毕业以后跟计算机专业的人去比,竞争力不够;要做数据挖掘方面的工作,没人指导感觉不靠谱,而且需要用到一些数学理论,基础不是很好,也缺乏竞争力;做环保,又觉得不是特别感兴趣,而且待遇一般,不知道以后的路要怎么选择。总之我现在的情况是,编程有基础,对火电厂污染物的处理有一些了解,内心希望去互联网公司工作,如果能有互联网+环保的单位我觉得比较合适,但是对目前的现状不是很了解,希望能帮我指点一下,万分感谢!!!

查看全文