大数据入门学习? 举报 理由 举报 取消 本人会计专业,想自学有关大数据的知识,目前是连菜鸟都不算的等级,想问如何做才能达到目的或求推荐一些入门书籍???谢啦 2018年2月20日 2 条回复 1710 次浏览 互联网,分析,数据,数据挖掘
回复 ( 2 )
大数据相关的东西,其实大部分资料都在互联网上。
书籍的话建议可以先了解大概性的,然后从hadoop生态入手,再到统计分析,数据挖掘。
建议多动手实践,搭个伪集群练练手,跑个巴子例子什么的。
然后就是多关注一些线上的技术社区,一些大数据类的公众号文章等等。
有机会建议去实习,讲真,大数据这种光看书是没用的,甚至待在实验室也没很大卵用,因为绝大部分实验室也没有数据给你玩。
本来我要发到微博的,或blog的今天顺便回答一下,对你多少有些帮助把
再开看书之前,首先我们需要了解什么是大数据,这里我会举几个简单的例子。 然后告诉你入门的方向,及其所需要的工具。剩下的以后慢慢整理,书籍没有,我给你推荐一个课程。Data Science – Johns Hopkins University | Coursera, 免费的。学完你什么都会了,英文的。
所谓大数据, Big Data, 在大多数人眼中是个很高尚,神秘以及自带光圈的职业。其实这个职业已经存才好久了,只不过到了信息爆发的年代人,信息井喷, 人们们才意识到,信息不能懂当垃圾扔啦再。就拿最近电信诈骗案来说, 他们买到了信息,一万条数据,总会有偏差之外的涉事未深的人上当。这些骗子也算是物尽其用了。
好啦,我举一几个列子让大家进一步了解数据。 大型连锁超市, 他们的恐怕是数据大户啦。每天几亿的交易量不在话下。他们是如何利用数据呢? 顾客会买很多的不同的产品,库存的管理和销售紧紧挂钩,一部分脱节, 销售就会下滑。所以嗯, 公司就会用我们初中学过的线性方程,根据每日某一个产品的销售量,据画一条直线, 来预测销售,你还记得给你两个点坐标,求一条直线的方程式么。对哒,差不多就那些了。 还有呢,超市有个难点,就是货物摆放,如何摆放让人们一篮子购买好多呢。就像牙膏总会和牙刷放在一起一样。成千万的产片如何建立联系呢, 靠的就是每日的不计其数的顾客贡献的购买信息,你在扫码刷卡的时候这些信息流向了信息库。分析员们就会整理数据,通过关联分析,找出哪写些产品一起购买的机会多一些,这些过亿的数据,不能看也不能猜测,一个普通的excel表格 也就能1048576 行,想想超市随随便便几亿行数据。Excel这时候只是个笑话。
说了这么多废话,我们来点实际的。如何迈入大数据。 大数据而言,上述说了只是冰山一角落。Big Data 本来就是一个很笼统的词汇。最基本的我自己概括成了三大类。商务分析,金融分析,科研技术分析,数据挖掘。在这里我主要讲商务方向。以他方面有时间会一一介绍,毕竟数据不分家。
商务分析比如,小到给领导做的每日的报告,经常会用到Excel。但是Excel,用起来很麻烦,数据量一大,局限性就出来了,还得自己写VBA 这门蛋疼的语言,比如很多年以前,用VBA写个身份证读取生日的功能。入门很麻烦。后来,就是现在,出现了好多东西。比如, Tableau和Power BI 两款收费工具出现以后呢,报告什么的,领导再也不用担心员工会浪费时间了,全程不接触最低级的数据层次,有的全部是每一行或者每一列的数据的名称,剩下的只是拖拽整理数据。 它们会自动识别,自动整理格式错误的数据,比如时间格式不对,它也能处理!全程傻瓜式处理。就是收费有点蛋疼,但是数据处理量。。。。有人问,Excel 有 Pivot Table 功能,那不一样么。我想说,同学,你用下就知道云泥之分了。
这些都是办公用的,用来做一些动态的报告。企业固定报告用什么呢,不可能每个报告都要重新,手动做一遍了把。一个几万人的公司,上千的报告咋搞? 自动生成呗。用什么呢,最原始,这里我举一个微软的例子。 微软有个软件叫做SQL sever ,这个玩意儿,其实就是黄金升级版的Excel表格,内存要多大有多大。但它没有Excel 的那种拖拽操作了,上亿的数据,你不可能用眼睛去找你情人的名字和生日,你哪里知道它在那一排啊。这时候要用到 SQL 着用语言了,知道了名字,SQL就会告诉你,相同名字人的一大堆生日。
但是给领导自动生成报告,就得继续下一步操作了。ETL, Extract, Transfer, Load 数据。就是从SQL Server提取, 转换, 载入数据。数据里面这一个过程占用了超过百分之八十的时间。这个过程就叫做ETL,好比Excel里面日期是String 或者数字格式,那么作报告的时候就不能用了,要改成日期格式的。上亿数据手动处理是不行的,要自动处理就会用到,比如微软提供的SSIS工具,通过设置复杂的SQL 命令,它会自动提取SQL Server,或者从文本文档提取,或者从Excel,又或者从这些文件中同时提取E,转换T, 载回L 到SQL Server中去。哒哒!全新格式统一上亿数据整理好了。
整理好了数据呢,就是数据分析,通常占到工作量的20%, 和ETL 80%相比少了点。通常用到的工具有微软的 SSRS, 其他的SAS, R, Python, 这些比较专业的等等。 数据分析也局势通常人人中高大上大数据的啦,没人会注意到最dirty的ETL啦。人们用上述历练好的数据做分析,也就是做报告,查看产品销售,分析产品的成熟期,低谷期等等。用数据去查找原因,找出解决方案。比如中信银行和SAS合作,分析不不同客户群体需求,设计满足不同客户群体刺激方案,打比方说,有些客户可能冲着信用卡免年费去激活信用卡;有的用户群体可能冲着激活信用卡反现金或者礼物去激活信用卡。要如何定位,区分这些群体,就得通过客户信息分析了。好比银行会通过用户的性别,年龄,地址,年收入,等等去分类。中信的案例是分成了三个群体。大家有兴趣可以去网上搜一搜。
今天就先讲到这里,总结一下。商务方向上数据分析的职位是不同的,名称也不尽相同。可能某个天天做报告的风险分析的主任 它们会用到Excel,Power BI, Tableau。也可能是IT部门做数据整理ETL的技术人人员; 也可能是在Finance部门的投资顾问; 随着大数据的热度,更有可能的是衔接IT部门和Finance部门的桥梁,等技术也明白业务,纯熟练是用 R,Python, SQL,或者 OBIEE等等,随着时代发展大中国再马云爸爸带领下会有更多的好东西喷涌出。
以后我会依次总结1.数据库和数据仓库与大数据之间的联系。2.ETL工具,例如SSIS。3。报告及分析工具。例如R了,Python啦。之后的之后呢,我会连续推出,一些初中数学在工作中实际应用,例如正态分布啦,条件概率啦,目前主流会用到的分析模型的建立等等实际操作。例如各种Regression啦如分析银行如何留住客户哒。最后会介绍Web 信息挖掘。粗爆易懂哦。