目前公司模型都是使用R或者PYTHON在线下建好模型,保存好模型参数,然后打包成接口,供JAVA进行调用。 那么现在的问题是:1. 打包上线的模型长期不会进行更新,因为模型参数被固定了,也不会去主动学习新的资料2.模型出现问题很难找出原因。因为JAVA只会报错JAVA的error,不会报出R或者PYTHON的error3. 本地离线建模受到机器配置的限制。经常几个G的数据电脑就会卡死,或者out of memory尝试使用JAVA直接建模,但是发现自己JAVA功底很弱,很难写出像样的算法。。特地想请教下各位前辈:1. 你们是怎么部署模型上线的?2. 怎么使得模型不断的学习新的资料3. 除了打包这种方式,是否还有其他的更好的方式进行上 […]
查看全文spark中的mapper和reducer个数是否可以配置?
如图,这是网上一张讲解shuffle的经典图,不过我感觉这个图有点问题。spark中的task分为两类,一类是shuffleMapTask,另一类是resultTask。shuffle的过程应该是在shuffleMapTask之间,或者shuffleMapTask和resultTask之间。也就是说,图中的map task应该对应的是以shuffle write为结尾的某个task过程,reduce task对应的是以shuffle read为开头的task过程。(不知道理解是否正确) 针对spark,我有一下几个问题,还请大牛帮答疑: 1)我记得hadoop mapreduce中的map和reduce个数是可以设定的。在spark […]
查看全文如何成为一个年薪50万+ 的数据分析师?
跳入了挖掘机这一大坑一段时间,本来是想往机器学习方向走的,但是我偏金融学的背景时候不被机器学习方向的岗位欢迎,所以往偏业务方向发展。感觉这一起薪还可以,但是看到身边做互联网和金融销售的同学发展的不错,月收入毕业几个月就到7000+的不少,所以想问问一个什么样的数据分析师能够达到50万年薪+
查看全文想从事大数据工作,本科学的是电力系统及其自动化,听朋友说先学好JAVA的基础,具体学习路线是什么呢?
有工科基础,过二级C语言(算0基础吧)
查看全文从无到有搭建一个自动问答的机器人需要了解哪些?比如说医疗方面.从何入手?有什么经典案例可供参考?
数据可以从第三方采集,有一定码码功底,工具可现学现用.求解惑
查看全文机器学习算法中GBDT和XGBOOST的区别有哪些?
在昨天阿里的面试中被问到了,我只简单的说了下xgboost能自动利用cpu的多线程,而且适当改进了gradient boosting,加了剪枝,控制了模型的复杂程度
查看全文LSA和有监督的文本分类能否相结合?
之前一直把心思放在有监督的文本分类学习上。最近将一些概念复习时发现了LSA,PLSA这些东东,但是无奈不是非常得明白(主要是应用上的,例如输入是文档词条矩阵,那么输出呢?经过SVD分解之后的矩阵?)。想求教下各位大大,现在有没有相关的应用场景?LSA和监督分类算法结合的?
查看全文