进了一家公司做数据分析,发觉是偏业务的,也会用到到一些传统的机器学习算法和一些数据分析的思路,但是我喜欢的是深度学习,分布式一类的方向,应该怎么做?
查看全文打字习惯匹配(Typing Pattern Recognition)有什么好的算法实现?
Typing Pattern被用于Coursera认证等诸多场景。如何比较准确地通过打字习惯进行身份识别?有哪些比较成熟的算法?
查看全文有人使用过xgboost吗?
最近在用xgboost进行数据分类,xgboost是最近很牛逼的一个boost实现,在很多数据挖掘比赛(比如kaggle)上都大放异彩我使用的是xgboost的java版本,用了它自带的例子没有任何问题,分类很正确,但是用自己生成的数据测试就不对劲了,我生成了一组用肉眼就可以区分的数据1,1,1,1,1,1,1,21,1,1,1,1,1,1,2…1,1,1,1,1,1,1,22,2,2,2,2,2,2,42,2,2,2,2,2,2,4…2,2,2,2,2,2,2,4并转换成了SVM格式的数据文件,结果用xgboost训练时只有50%的准确率,这是为毛啊?xgboost的参数我都是按照默认来的没动过(̶ […]
查看全文机器学习的成熟应用场景?
机器学习的概念在当下特别火热,是什么样的(商业)应用前景促成了现在这种局面? 具体而言有两点疑惑: 第一,机器学习如今在工业界有没有成熟的有巨大潜力的应用场景? 第二,机器学习领域内是否存在已经被证明潜力巨大但由于某些因素尚未能实现的应用场景呢? 望相关大神能够解惑。
查看全文如何评价spark的机器学习框架 和 tensorflow的机器学习系统?
Spark ML 和 Tensorflow / DMTK有什么区别和优劣?
查看全文如何在 Spark 机器学习中应用 scikit
最近在写spark下的机器学习程序,用RDD编程模型。spark自带的机器学习算法API局限太多。想请问各路大侠,能不能再spark的编程模型下引用scikit-learn?
查看全文样本量少, 方差大,能假设其服从正态分布吗?
实际背景:预测一个用户的购买时间可用数据:历史购买时间准备解法:算出历史购买时间间隔,假设其符合正态分布。计算最近一次购买时间距今天的间隔时间。最后计算置信区间blablabla. P.s 整体的用户购买间隔不符合正态分布,所以单独计算每一个用户。那么问题来了:用户的购买次数不多,也就3 ~ 10次(即样本量只有2~9且方差大)。所以可以用上面解法么?
查看全文数据分析有希望转算法工程师吗?
由于没接触过算法工程师,不清楚自己有没有转型的可能性,有些迷茫。请问什么样的职位或职业经历比较有帮助?有哪些职位可以作为过度或学习路径?多谢!说说本人经历:# — begin统计本科毕业,不过刚毕业的4年里,工作经历涉及更多的是商业分析和dw相关的项目;有时会用R,Python的处理数据;hql和streaming也没问题。机器学习方面的知识,主要靠业余时间看国外的书,比如ISL,ESL还有一堆动物书,算法了解也就限于书上这些。目前的工作是数据挖掘,其实多数时间还是写hql和Python处理数据……建模调用R和scikit里的包;coding经验主要是数据处理和可视化,也能用Python写出主流算法的toy代码。数学基础 […]
查看全文