发起人:ya楠 初入职场

笃信数据之中有金子,想做一名掘金人

回复 ( 8 )

  1. 夏目沉吟
    理由
    举报 取消

    ——————2015.10.23更新————

    感谢 @黄晋 的提醒.

    官方指南的话,除了R自带的,还有一些包的开发者,会自己建一个网站,介绍它的这个包怎么用.比如说学R必备的ggplot2包的官方指南还有一些团队会在自己的平台上结合一些发表的论文的数据来介绍自己的包怎么用的,比如说这是meta分析包metafor包结合一些发表的论文,来介绍自己的包的用法,接近实战了.总之,想学习统计和机器学习方面的方法话,互联网上有海量的资源,就看搜索能力和自学毅力了.以上,祝愿共同进步

    ————原回答————

    新手的话推荐R.只接触过R.R入门很容易,你如果之前学过其他的编程语言的话.你只需学会一下几个基本的函数就可以进行最初步的数据分析了.未用过python,关于R和Python的优劣参看R 和 Python (numpy scipy pandas) 用于统计学分析,哪个更好? – R(编程语言)

    一.一个实例

    以对基因表达数据画热图(关于啥是热图(heatmap),自己百度吧)为例.

    我们现在有一个以txt文件保存的组织特异性表达数据,rownames是基因的ID,colnames是组织的ID(科创项目亲自实战例子,由于项目还在进行,利益相关且出于说明的需要,数据的具体命名略去了)

    1.导入数据:

    data<-as.matrix(read.table(file="original_data.txt",sep="\t",header=T))
    
  2. Ryan Fan
    理由
    举报 取消

    首先你要知道,R、Python、SQL都是工具!

    只会工具,而不知它们是用来干什么的,就算你学得再好也没用!

    所以我建议,先从统计基础开始学。

    如果题主对数据挖掘到底是用来干什么,可以用来干什么感到摸不到头脑,可以都逛逛知乎,看看《数学之美》等。

  3. 潘颖
    理由
    举报 取消

    1、现在自己慢慢接触到数据分析,之前的数据量比较少(15w以下),熟练运用用EXCEL中的,left(),right(),MID(),con他人()这些文本函数,vlookup、insert、还有数据分列、数据重复、替换、查找、定位、一些简单的VBA小算法就能够顺利完成多数数据的清洗工作,明天再回答;

    2、前提是以上数据都直接以Excel格式放在你面前,之后要取数据,还有要处理的数据量变大后就要学好SQL语言,还有一些数据库知识,因为还有一些数据分析处理工作,尤其是数据量大了之后,SQL速度比Excel快得不是一点点。还有就是要学SPSS,因为数据大了之后你要开始做预测模型了,不再是描述性统计,了解现状,还要预测一下未来。

    3、以上前提是数据已经在数据库里了,不需要你去采集,如果进阶到要自己采集数据,还有更大样本处理,还有数据呈现要更有insight,你就要学好Python还有R语言了,真乃神器,就是难学点了,学好后,能做的事情就多了~

  4. Stu.zhouyc
    理由
    举报 取消

    这是我的一些经验和拙见,题主看自身的实际需求

    ——————————–/———

    Sql 和 python 联合。

    可以先学一些python的语法和库函数做数据处理,等大概会了一点python语法和技巧后就可以把mysql和python结合一起做。

    用MySQLdb链接sql和python语言,我觉得已经支持的很好了(在mysql5.7里)。SQL这东西毕竟还是要和程序结合在一起才好用。

    ps:

    最好能边做项目边运用学习,这样学起来快一点也不会无聊。同时可以学到各种算法和理论基础(这部分很重要,但代码能力也很重要,甚至更重要。)

  5. 蔚蛋
    理由
    举报 取消

    看你未来的方向,以及现有的处境。

    未来的方向可以调整,现在多学一点,对未来都有帮助,即便因为没有实践而遗忘,重拾过往还是速度偏快的。

    现在的处境:现在是工作还是学习阶段(在校),在校就不表了。谈谈工作,工作上目前的用到的工具、方法论等等够用么?是否存在分析或挖掘的困境?而哪些工具或知识具备能赐予你打破困境的力量?

    语言和工具都是必备的东西。无需分先后,只要优先解决困境就行。

    如果是SQL的话,不做开发和DBA,那么简单的数据提取在前期已经够你用的了,这个应该是比较简单的,但需要实际操作,不然实际案例上手,会蒙圈的。

    SPSS:傻瓜式操作的数据分析工具,拿本书就可以入门了,比如张文彤的书,百度淘宝啥的都有。

    Python 是现在比较新的数据分析工具之一,学习难度和时间需要看你的之前所学的知识而定,有一定基础的话,入手比较快。

  6. HansYuans
    理由
    举报 取消

    个人也是刚刚入门,在看网上公开课时有位前辈是这样描述自己的

    Sql 20% R 40% Python 40% 前端40%。

    这里不是指个人知识储备,而是在每个领域的掌握程度,当然不排除谦虚的成份。

    学习当中,也深刻意识到各领域的联动性,所以同时了解,希望能融会贯通,互相补足。

    共勉。

  7. 唯末
    理由
    举报 取消

    SQL,你得知道怎么取数据和存数据才能分析吧。。

我来回答

Captcha 点击图片更换验证码