最近在写spark下的机器学习程序,用RDD编程模型。spark自带的机器学习算法API局限太多。想请问各路大侠,能不能再spark的编程模型下引用scikit-learn?
查看全文样本量少, 方差大,能假设其服从正态分布吗?
实际背景:预测一个用户的购买时间可用数据:历史购买时间准备解法:算出历史购买时间间隔,假设其符合正态分布。计算最近一次购买时间距今天的间隔时间。最后计算置信区间blablabla. P.s 整体的用户购买间隔不符合正态分布,所以单独计算每一个用户。那么问题来了:用户的购买次数不多,也就3 ~ 10次(即样本量只有2~9且方差大)。所以可以用上面解法么?
查看全文有哪些网站用爬虫爬取能得到很有价值的数据?
题主是个web程序员,最近想转去做数据分析,先练习的爬虫(python),各种爬取技巧以及多网站爬取等已经掌握,但发现转方向最无奈的是方向(要抓什么数据来干什么)比较迷茫,希望有前辈给予指导,哪些网站的数据抓取下来能获得有分析价值的数据,或者前辈的经验。
查看全文在中介分析中应如何对遮掩效应进行解释?
温忠麟 & 叶宝娟 (2014)在《中介效应分析:方法和模型发展》中提到遮掩效应(suppressing effects)(Kenny, 2003; MacKinnon, 2008; MacKinnon et al., 2000, 2002; Shrout & Bolger, 2002),认为在中介效应中如果ab和c’符号相反则按遮掩效应解释,但对具体如何解释遮掩效应没有更多的说明。而我追溯到原文,发现对遮掩效应也只有简单的介绍,并没有详细的解释。所以我的问题是,如果在中介分析中出现遮掩效应时,应当如何对这一结果进行合理解释?
查看全文数据分析有希望转算法工程师吗?
由于没接触过算法工程师,不清楚自己有没有转型的可能性,有些迷茫。请问什么样的职位或职业经历比较有帮助?有哪些职位可以作为过度或学习路径?多谢!说说本人经历:# — begin统计本科毕业,不过刚毕业的4年里,工作经历涉及更多的是商业分析和dw相关的项目;有时会用R,Python的处理数据;hql和streaming也没问题。机器学习方面的知识,主要靠业余时间看国外的书,比如ISL,ESL还有一堆动物书,算法了解也就限于书上这些。目前的工作是数据挖掘,其实多数时间还是写hql和Python处理数据……建模调用R和scikit里的包;coding经验主要是数据处理和可视化,也能用Python写出主流算法的toy代码。数学基础 […]
查看全文