学弟给我说被导师解除弟子关系,想转行做大数据,有哪些简单一点的大数据书籍?

理由
举报 取消

事情原委大家自己网上查就知道了!其实除了他,很多人都想转行做大数据,想找些入门的书籍入手,有推荐的么?

2018年2月10日 7 条回复 1672 次浏览

发起人:R是语言不是日 初入职场

横眉冷对千夫指,俯首甘为孺子牛。

回复 ( 7 )

  1. 数据哥
    理由
    举报 取消

    谢邀

    Themos Kalafatis是一个天使投资人,并且有15年数据分析工作经验,他给出了一份数据学习书单。大部分资源国内都可以在网上找到,有一些已经有中文版图书。可能对于中国的学生来说英文书有点吃力,但是有挑战才有成就,小伙伴们,加油吧!

    经常有人问我“要成为数据挖掘工程师或者数据科学家应该读什么书?”类似的问题。下面是一份建议书单,同时也是成为数据科学家的指南,当然,这不包括取得合适大学学位的要求。

    在深入探讨之前,数据科学家似乎需要掌握许多技巧,如:统计学、编程、数据库、演讲技巧、数据清理与变换知识。
    理想情况下,你需要具备以下技能:

    1. 了解统计学与数据预处理知识。
    2. 理解统计陷阱。你必须明白在统计分析过程中偏差与常见错误都将影响统计分析人员。
    3. 了解几个机器学习与统计技术的工作原理。
    4. 时间序列分析。
    5. 编程技巧 (R, Java, Python, Scala)。
    6. 数据库 (SQL and NoSQL Databases)。
    7. 网页爬虫 (Apache Nutch, Scrapy, Jsoup)。
    8. 文本数据。

    了解统计学

    一本不错的统计学教材是:Fundamental Statistics for the Behavioral Sciences(行为科学统计概要). 当然 IBM SPSS 是工业统计学的重要部分,推荐 IBM SPSS for Introductory Statistics – Use and Interpretation and IBM SPSS For Intermediate Statistics大部分关于 IBM SPSS 软件的书,都注重提供基本的统计概念与软件使用技巧,Morgan 的书里包含了大量大数据集的实践方法。

    数据预处理

    我必须再次强调确认、检查数据的重要性。数据预处理除了能将数据转换成算法更易识别或处理的模式还能防止输入数据错误。推荐书籍如下:

    • Data Preparation for Data Mining by Dorian Pyle.
    • Mining Imperfect Data: Dealing with Contamination and Incomplete Records by Pearson.
    • Exploratory Data Mining and Data Cleaning by Johnson and Dasu.

    了解陷阱

    有太多的统计误用与偏差的示例会影响你的分析工作,特别是当你没有意识到这个问题的时候,这在我身边经常发生。大数据的需要注意的是可信度。例如:

    • Statistical Truisms in the Age of Big Data
    • The Hidden biases of Big Data.

    下面Quara关于该问题的问答:

    • Quora Question : What are common fallacies or mistakes made by beginners in Statistics / Machine Learning / Data Analysis.
    • Identifying and Overcoming Common Data Mining Mistakes by SAS Institute.

    推荐以下书籍:

    • Common Errors in Statistics (and how to avoid them) by P. Good and J. Harding.

    假如你在研究财政预测,我强烈建议你读一读 Evidence-Based Technical Analysis by David Aronson(实证技术分析:如何利用科学与统计学评估技术指标、图形状态与交易规则)该书关注的是数据挖掘偏差对数据分析的影响。

    理解常用机器学习与统计算法工作机制

    你需要理解每个算法的优点与缺点。算法是否可以处理数据噪声?算法的适应的数据规模?算法可以采用什么优化方法?算法是否需要对数据进行变换?下面是一个微调 SVM 回归模型的一个示例:

    • Practical Selection of SVM Parameters and Noise Estimation for SVM Regression.

    另外一本值得注意的书是:

    • Applied Predictive Modelling by Khun. Johnson 通过 caret R包给出了大量的实例,该宏包增强了参数优化能力。

    当需要了解机器学习与统计算法时,我推荐以下书籍:

    • Data Mining : Practical Machine Learning Tools and Techniques by Witten and Frank.(数据挖掘:实用机器学习技术)
    • The Elements of Statistical Learning by Friedman, Hasting, Tibishirani.(统计学习基础)

    时间序列预测

    在很多情况下,我们需要确定并预测时间序列数据的趋势。

    • Forecasting : Principles and Practice by Hyndman and Athanasopoulos 是一本介绍预测的优秀数据的书。
    • Time Series Analysis and its Applications with R Examples by Shumway and Stoffer(时间序列分析及应用) 是另一本关于时间序列预测 R 实践的书籍。
    • 假设你对时间序列非常感兴趣,那么我还会推荐 ForeCA 的 R宏包,该宏包会告诉你如何预测时间序列。

    编程能力

    编程能力是另一项必要的技巧。它可以帮助你是用许多书籍科学工具或者是编程接口,通常是 Java 与 Python. Scala 也正在成为数据科学的重要编程语言,R 语言通常来说是必须的。 具有程序经验通常会让你在学习其他新的程序语言时变得很容易。你应当经常了解数据科学对程序语言的要求 (见Finding the Right Skillset for Big Data Jobs). 从当前看来 Java 是目前最流行的程序语言,然后是 Python 和 SQL. 另外,从谷歌的趋势来看也是非常有用的途径,但有趣的是 Python 不是当前值得学习的程序语言。

    数据库知识

    以我的经验来看数据库知识是非常重要的一项技能。通常数据库管理员或者其他 IT 工程师会因为太忙而没有时间帮你提取数据。这意味着你需要掌握如何连接数据库,优化查询以及执行一些查询或变化来获取你想要的数据格式等技巧。

    网络爬虫

    网页爬虫是非常有用的一项技能,如果你知道如何编写网络爬虫,你可以从网络上爬取并提取许多有价值的信息。你应当了解 HTML 元素以及 XPath 。下面是一些可以用于构建爬虫的工具:

    • Scrapy
    • Apache Nutch
    • Jsoup

    文本数据

    文本数据包含了许多非常有用的信息,如:顾客意见、情绪以及意愿。信息提取与文本分析是数据科学家需要掌握的重要技能。
    信息提取:

    • GATE
    • UIMA
      文本分析:
    • “tm” R 包
    • LingPipe
    • NLTK

    推荐以下书籍:

    • Introduction to Information Retrieval by Manning, Raghavan and Schütze.
    • Handbook of Natural Language Processing by Indurkhya, Damerau (Editors).
    • The Text Mining HandBook – Advanced Approaches in Analyzing Unstructured Data by Feldman and Sanger.

    结语

    最后,这里还有一些数据科学家不该错过的书籍:

    • Data Mining and Statistics for Decision Making by Stéphane Tufféry (A personal favorite).
    • Introduction to Data Mining by Tan, Steinbach, Kumar. Applied Predictive Modelling by Khun, Johnson.
    • Data Mining with R – Learning with Case Studies by Torgo. Principles of Data Mining by Bramer.

    文章来源于微信公众号:大数据二三事 ID:dashuju234 翻译者为北京理工大学计算机专业学生,邮箱:latexers@163.com。

    原文:你不得不知的大数据入门书单及教程

  2. 夜子
    理由
    举报 取消

    推荐几本比较入门级的中文版的,大家可以看看,欢迎拍砖。这些书籍没必要购买,在学校的图书馆应该有,没有图书馆的网上有,因为价格有点高。

    《证析》《大数据》《爆发》《大数据时代》

  3. 匿名用户
    理由
    举报 取消

    推荐一下~~

    3本书拯救大数据白痴(附PDF合集链接)

  4. 解家润
    理由
    举报 取消

    这个问题的前半部分是让人吐槽的吧?

  5. 雨后初晴
    理由
    举报 取消

    前半句是用来当噱头的吧…..

  6. Adam Woo
    理由
    举报 取消

    黑的不能不能的了……

我来回答

Captcha 点击图片更换验证码