去年自己国内top5数学系本科毕业,现在美国top30大学data science研究生,数学很有信心,统计不错(不算最顶尖),会写java, python(数据结构水平,多线程那些不懂,汇编不懂),熟练MySQL, R,另外hadoop, spark刚入门,熟练机器学习和数据挖掘模型,包括文本挖掘(可以自己用java, python, R)中的任何一门语言实现。现在在和一个老师做网络数据的分析,准备投今年的ACM IMC会议。暑假在纽约一个小的金融机构做data analyst实习。自己以后肯定回国,目标是1:类似于阿里巴巴大数据平台,蚂蚁金服之类的部门 2:基金或者银行的数据挖掘岗位 3:国内的量化基金 请问一下自己应该在哪方面 […]
查看全文请问 ios开发和大数据 机器学习相关开发 哪个更有前途?
本人云计算和安全相关背景 但现在对大数据和ios开发都有兴趣 这两个对我来说 学习的难度 成本差不多也许 大数据除了熟悉那些相关的framework tool 以外还可以在机器学习的算法上有所研究 ios开发 想深入进去 能做出来了质量高的app也很有吸引力 不管选哪个 目标是想学的比较深入 不敢说专家 至少以后可以自己做点事情 或者得道比较丰厚的收入 作为未来五到十年的方向 地点在硅谷 所以想请高人指点下 要怎么选择?谢谢了
查看全文最近在看ISLR,有点吃力,能推荐一本基础的统计书籍吗?
ISLR(Introduction to Statistical Learning with R), 4th printing,能推荐一本更加基础的概率论和统计方面的书籍吗?
查看全文adaboost为什么不容易过拟合呢?
刚刚接触机器学习,adaboost对训练数据分类的非常精细,为什么不会过拟合呢?是迭代过程中基函数会自己做权衡,不会为了一些明显的噪声去增加err(损失),从而对噪声有一定的容忍度吗?
查看全文关于数据挖掘和数据集成?
数据预处理的主要任务包括:数据清洗 数据集成 数据转换 数据归约 数据离散化。为什么只有“数据集成”单独出了书,而剩下的却没有?(我不是处女座)是因为“数据集成”的内容已经多到可以单独成册了,还是因为“数据集成”很重要?PS:大家发现了吗,华章计算机科学丛书,花纹可以拼接到一起,如下图~[img=1112832840]
查看全文支持向量机为什么要求间隔大于1?
支持向量机为什么要求间隔大于等于1,而不是2或3呢?算法懂了,求最大间距超平面,但为什么默认最小间距是1呢?只是为了计算方便吗
查看全文Deep Learning 的专家如此急缺,它难在何处?
不可否认,人工神经网络中有一些思想是很巧妙的。但正如SVM, Linear Regression, Decision Tree, Boosting Tree 一样,他们都有各自巧妙的思想,但数学并不复杂。通过具象来深入理解其原理和调参也并不复杂。常用的技巧有,train, predict,feature engineering,bootstrap 等等。机器学习作为一种计算机科学分支,其数学概念的复杂度低于统计学。机器学习用的是比较直观的想法。有许多trick,例如loss function, kernel,activation function, back propagation。那么,机器学习,或者深度学习,难点究竟在哪里呢?1 […]
查看全文如何计算基于特征的相似度?
假设电商网站用户有若干特征,每个特征对应一个分布,比如类别:得到向量(0.2,0.4…)表示该用户0.2的概率购买生活用品,0.4的概率是数码产品…, 按价格段分(0.4,0.3…)表示0-300的购买概率是0.4, 300-500的概率是0.3…如何计算不同用户的相似度?一种简单的方法是基于逻辑回归构造不同的特征的权重,按特征分别计算相似度,再加权。请教大家 还有什么其余的方法吗
查看全文北京数据挖掘或者机器学习方向,实习工作那个公司好?
简要描述一下背景,本人2015年8月至10月在蚂蚁金服实习,做的是Android客户端,当时的项目是蚂蚁聚宝。研究生读的方向是数据挖掘,研一下学期课程比较轻松,想找一份北京的数据挖掘或者机器学习方面的工作实习(不想做android了)。不知道投哪个公司实习好(希望能去学到东西),希望大家能够推荐一下,当然了,大家推荐的公司,可能个人能力不足,不能够得到offer,但是我会尽力。谢谢各位了。
查看全文