用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
“大数据”是什么?
师从威廉配弟、亚当斯密、卢卡帕乔利、波恩哈德黎曼等
Big Data
真正玩大数据的基本上不提大数据。所以当有人动不动给你讲Big Data。你只管理解为,有人装逼,打他!
大数据是动态变化,且不断增加的数据。如果没有在增加,在变化,那么就不需要那么多人来研究,也就就是因为数据的动态变化,才使得大数据的研究变得有价值。
这是…黑客帝国要来的征兆吗
所谓大数据,可以按字面理解就是大量的数据,大数据的关键在于这些大量数据中所包含的信息,可以帮助我们洞察过去甚至预测未来。大数据的意义不仅仅在于大量的数据本身,而在于基于它之上所进行的一系列的分析活动,比如分类汇总、趋势预测、数据挖掘等等,从而产生有价值的信息,帮助我们去洞察过去和预测未来。
为什么最近几年大数据很火 ?数字化信息时代,我们每天都在产生海量的数据,并且还在以很高的增速在增加。过去,由于硬件和技术的限制,我们无法对这些数据进行分析处理。举个例子,以前企业的信息系统在年终要出一个财务报表,对过去一年的财务数据进行分类汇总,基本上都要跑上好几天,这还只是一个公司的财务数据,更别说整个公司范围,甚至是互联网上的数据了。但随着近几年硬件和技术飞速发展,硬件成本越来越便宜,服务器内存可以达到TB级别,一系列技术上的革新比如内存计算(In-Memory Computing)、列存储数据库(Column-based Database)、分布式处理(Distributed Computing, 如云计算, hadoop),使得我们对海量数据的分析成为了可能,我们可以在几秒钟或者几十秒内就可以得到问题的答案。所以,过去的不可能因为大数据而变得可能,现在,越来越多的个人、企业和政府机构因为使用大数据技术而受益,或提升效率,或改善客户体验,或提高人们的生活水平。在这个数字化时代,我们必将会越来越多和深刻地感受到大数据给我们各行各业所带来巨大的革新…
利益相关,数据挖掘相关从业人员
~~~~~萌萌的分割线~~~~~大数据,噱头的意味更加重。
真正做大数据分析的人可能使用的还是经典的数据挖掘和机器学习的方法做的分析。
做这类问题的分析重点可能还是花在有用数据的清洗,和特征工程上来。
今天刚刚读完《大数据》这本书籍,对个人的思维很有启发意义,建议大家读一下。大数据,从字面的的意思可以理解为“大量的数据集合”,并且这些数据是有价值的。诸如电商平台收集的的大量的用户消费数据,搜索引擎记录的大量用户浏览数据、政府统计的国民人口统计数据信息等等。理解大数据,首先可以从我们大家熟知的”抽样“调查这种统计方法谈起,”抽样“是大家非常熟悉的一种统计方法,可是大家是否想过这样一个问题:抽样的统计方法是在什么样的条件下进行的,为什么不对总体进行分析?要知道抽样的方法得出的结论很有可能存在偏差、片面甚至是错误的问题。是的,抽样绝对不是一个最优的统计方法,对总体数据进行收集分析才是最为完美的!抽样调查只是在数据收集存储工具、统计分析工具尚不够强大,对全体数据进行收集、存储分析所耗费的人力、物力、财力过大而采用的一种折中的方法。随着近年来数据的产生能力大幅度提高(比如淘宝一天的用户消费记录可达百万计),使得这些亿万量级的信息大量充斥在我们的身边,大数据的概念由此产生。重要的是,我们的统计工具技术也逐渐强大,能够同时处理分析这些亿万量级的信息,而不必从这些信息中随机抽出一些”样本“进行特征分析,其结果也必然是更为准确。大数据之所以热门,就在于它是有很大潜在价值的。 除了大多数人能够理解的表面价值(如对公司一段时期的营业数据、用户数据进行统计分析,可以看出公司的经营状况,可以选择更精准的用户营销方案等),大数据最诱人的地方在于他深藏的”相关关系“,这种关系需要进行进一步挖掘才能显示出来,并且有时候会让人觉得不可思议,难以捕捉其中的缘由。一个比较著名的例子是飓风雨具与蛋挞的关系,美国一家零售巨头公司通过对其销售的大量商品分析,发现每当飓风雨具来临时,商店内的防飓风雨具销量就会大增,令人不可思议的是,蛋挞的销量跟雨具的销量呈现一种正相关的关系。于是,尽管不清楚其中的缘由(后来也有了合理解释),但是知道这种相关关系后,商店在雨季来临时会将蛋挞和雨具摆放在一起一次来增加销量。这是大数据分析的一个简单的例子。另外试想如果 我们对一个网民长久的网页搜索信息记录进行分析,是不是可以推测出他的一些私密信息(年龄、职业、爱好等),对他进行”画像“,尽管我们并不知道这些隐私。有一种观点,未来的社会是数据化的社会,一切事物都可以数据化。将人体的生理状况转化成数据进行检测储存来及时发现一些潜在的疾病威胁,目前是已经普遍运用的。不仅仅是个体,其他任何事物,任何状态都有可能被数据化。我们记录这些个体事物正常运行时的数据资料,当数据在某个节点显示异常时,我们就知道个体事物有可能出现问题了。如记录机器运行数据,当数据中的某一项指标超出以往观测值,那么机器有可能将要出现故障,以此来预防避免事故的发生。当然,这一切的前提都是可以讲这些状态给转化成数据,然后进行观测分析,事实上,这也是大数据变革社会的方式。请记得:一切都将被数据化,数据革命是继工业革命、信息革命后人类所面临的又一次社会重大变革趋势~
昵称*
E-Mail*
回复内容*
回复 ( 6 )
Big Data
真正玩大数据的基本上不提大数据。所以当有人动不动给你讲Big Data。你只管理解为,有人装逼,打他!
大数据是动态变化,且不断增加的数据。如果没有在增加,在变化,那么就不需要那么多人来研究,也就就是因为数据的动态变化,才使得大数据的研究变得有价值。
这是…黑客帝国要来的征兆吗
所谓大数据,可以按字面理解就是大量的数据,大数据的关键在于这些大量数据中所包含的信息,可以帮助我们洞察过去甚至预测未来。大数据的意义不仅仅在于大量的数据本身,而在于基于它之上所进行的一系列的分析活动,比如分类汇总、趋势预测、数据挖掘等等,从而产生有价值的信息,帮助我们去洞察过去和预测未来。
为什么最近几年大数据很火 ?数字化信息时代,我们每天都在产生海量的数据,并且还在以很高的增速在增加。过去,由于硬件和技术的限制,我们无法对这些数据进行分析处理。举个例子,以前企业的信息系统在年终要出一个财务报表,对过去一年的财务数据进行分类汇总,基本上都要跑上好几天,这还只是一个公司的财务数据,更别说整个公司范围,甚至是互联网上的数据了。但随着近几年硬件和技术飞速发展,硬件成本越来越便宜,服务器内存可以达到TB级别,一系列技术上的革新比如内存计算(In-Memory Computing)、列存储数据库(Column-based Database)、分布式处理(Distributed Computing, 如云计算, hadoop),使得我们对海量数据的分析成为了可能,我们可以在几秒钟或者几十秒内就可以得到问题的答案。所以,过去的不可能因为大数据而变得可能,现在,越来越多的个人、企业和政府机构因为使用大数据技术而受益,或提升效率,或改善客户体验,或提高人们的生活水平。在这个数字化时代,我们必将会越来越多和深刻地感受到大数据给我们各行各业所带来巨大的革新…
利益相关,数据挖掘相关从业人员
~~~~~萌萌的分割线~~~~~大数据,噱头的意味更加重。
真正做大数据分析的人可能使用的还是经典的数据挖掘和机器学习的方法做的分析。
做这类问题的分析重点可能还是花在有用数据的清洗,和特征工程上来。
今天刚刚读完《大数据》这本书籍,对个人的思维很有启发意义,建议大家读一下。大数据,从字面的的意思可以理解为“大量的数据集合”,并且这些数据是有价值的。诸如电商平台收集的的大量的用户消费数据,搜索引擎记录的大量用户浏览数据、政府统计的国民人口统计数据信息等等。理解大数据,首先可以从我们大家熟知的”抽样“调查这种统计方法谈起,”抽样“是大家非常熟悉的一种统计方法,可是大家是否想过这样一个问题:抽样的统计方法是在什么样的条件下进行的,为什么不对总体进行分析?要知道抽样的方法得出的结论很有可能存在偏差、片面甚至是错误的问题。是的,抽样绝对不是一个最优的统计方法,对总体数据进行收集分析才是最为完美的!抽样调查只是在数据收集存储工具、统计分析工具尚不够强大,对全体数据进行收集、存储分析所耗费的人力、物力、财力过大而采用的一种折中的方法。随着近年来数据的产生能力大幅度提高(比如淘宝一天的用户消费记录可达百万计),使得这些亿万量级的信息大量充斥在我们的身边,大数据的概念由此产生。重要的是,我们的统计工具技术也逐渐强大,能够同时处理分析这些亿万量级的信息,而不必从这些信息中随机抽出一些”样本“进行特征分析,其结果也必然是更为准确。大数据之所以热门,就在于它是有很大潜在价值的。 除了大多数人能够理解的表面价值(如对公司一段时期的营业数据、用户数据进行统计分析,可以看出公司的经营状况,可以选择更精准的用户营销方案等),大数据最诱人的地方在于他深藏的”相关关系“,这种关系需要进行进一步挖掘才能显示出来,并且有时候会让人觉得不可思议,难以捕捉其中的缘由。一个比较著名的例子是飓风雨具与蛋挞的关系,美国一家零售巨头公司通过对其销售的大量商品分析,发现每当飓风雨具来临时,商店内的防飓风雨具销量就会大增,令人不可思议的是,蛋挞的销量跟雨具的销量呈现一种正相关的关系。于是,尽管不清楚其中的缘由(后来也有了合理解释),但是知道这种相关关系后,商店在雨季来临时会将蛋挞和雨具摆放在一起一次来增加销量。这是大数据分析的一个简单的例子。另外试想如果 我们对一个网民长久的网页搜索信息记录进行分析,是不是可以推测出他的一些私密信息(年龄、职业、爱好等),对他进行”画像“,尽管我们并不知道这些隐私。有一种观点,未来的社会是数据化的社会,一切事物都可以数据化。将人体的生理状况转化成数据进行检测储存来及时发现一些潜在的疾病威胁,目前是已经普遍运用的。不仅仅是个体,其他任何事物,任何状态都有可能被数据化。我们记录这些个体事物正常运行时的数据资料,当数据在某个节点显示异常时,我们就知道个体事物有可能出现问题了。如记录机器运行数据,当数据中的某一项指标超出以往观测值,那么机器有可能将要出现故障,以此来预防避免事故的发生。当然,这一切的前提都是可以讲这些状态给转化成数据,然后进行观测分析,事实上,这也是大数据变革社会的方式。请记得:一切都将被数据化,数据革命是继工业革命、信息革命后人类所面临的又一次社会重大变革趋势~