人人都在说大数据，那么大数据行业创业的方向是什么？

回复 ( 10 )

诺蓝管理专家
0
举报回复
理由

举报取消

接触大数据，了解这个行业已经有两年多了，每天都在阅读大量的关于大数据的文献资料和技术文章。如果你要问我什么是大数据？以前可能我会和你说，大数据是一种思维，一种技术，标志的是大数据的4V特点：

Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。大数据带来的是一种变革，打破了原有的随机分析（抽样调查）方法，采用所有全量的数据来进行分析，分析的数据更加复杂，有结构化数据、半结构化数据和非结构化数据，分析结构更加注重相关性而不是因果。

可是，普通人和大众用户他们听得懂吗？现在我会举例子告诉你。

比如说，采野蘑菇/野山参这样的事情，野蘑菇和野山参的分布地点都是随机的，经验告诉我，它们会分布在哪片山林，但是我们不知道具体位置，得一个一个的找。大数据可以解决这个难题。

我们可以把山林用数据可视化表现出来，然后让采野蘑菇的人根据自己的实战经验标出蘑菇分布的地点，并且把这些地点数据常年积累起来。然后结合野蘑菇的习性，收集每片山林的降雨量、灌木丛分布数据、土壤数据、温度数据以及山林里采蘑菇的人流量数据等等，来准确的预测出野蘑菇的分布地点。

这就是大数据力量。

一言以蔽之，大数据最直接的意义就是让“随机性”的事情变得可提前预测，从而提高效率和行动价值。

同样的思路，森林防火防贼、环境保护、旅游景点客流预测等等，都可以引入大数据思维。大数据同时也可以为我们工作、学习和生活中一些重大决策作为依据。

今天主要说的是大数据领域的创业思考，大数据只有和生活、学习、工作以及商业等场景结合才能产生价值。推动技术发展的从来都不是技术本身，而是消费者（用户）的需求。用户不需要知道也没兴趣知道你处理大数据是用Hadoop还是Spark、原理是什么、架构是什么，用户最关心的是大数据到底怎么用，用了能为自己带来什么好处。

今天我们将从“外部大环境”、“行业内部环境”、“创业风险”和“大数据创业机会和方向”四个点来阐述主题，聪明的朋友也许已经知道了，我们的思路就是大数据领域创业的SWOT分析。

大数据市场现状（外部环境）

根据贵阳大数据交易所5月28日发布的《2015年中国大数据交易白皮书》显示：2014年中国大数据市场规模达到767亿元，同比增长27.83%。预计到2020年，中国大数据产业市场规模将达到8228.81亿元。

一、大数据市场规模巨大

首先，中国大数据市场环比增长率较大。根据易观智库7月30号发布的中国大数据应用行业的报告显示，2015-2018年中国大数据市场营销规模达到258.6亿人民币。环比增长率为37.2%。

其次，大数据在全球范围内的市场规模同样巨大，根据IDC发布最新研究结果，预测到2018年全球大数据技术和服务市场的2018年的复合年增长率将达到26.4%，规模达到415亿美元，是整个IT市场增幅的6倍。

无论是从国内还全球的市场规模和增长率来看，我们都可以得出这样一个结论，无论你是什么样的公司，或者说你未来创业要做什么样的服务，大数据都是兵家必争之地。大数据本身就是一种无形的资产，如果你的公司还没有部署大数据，那么在未来的市场上会失去核心竞争力。就好比你走在中关村创业大街上，你能收到的100份融资BP里，可能有99份都是APP和O2O项目，但99家里90%以上会重视大数据。

二、政策好，政府支持力度大

根据gov.cn9月6日消息，国务院公开发布《国务院关于印发促进大数据发展行动纲要的通知》，纲要里明确的说明，中国将在2018年会建成政府的大数据平台。相比之下，我们敬爱的习大大和李克强总理也经常为大数据站台，为中国的大数据发展点赞。看政府对大数据的重视，你抬头看看前两天的北京的蓝天，就会对政府有信心了。政府真正要干一件事，执行力大的超出你的预期。

据我们的观察，大数据领域的创业环境只会越来越好。目前，很多一线城市乃至二三线城市的科技园区，都出台了相关的扶持大数据产业的政策。如果你真的想在这个行业创业，可选择扶持力度大、人才较多的城市作为大本营，当然了，北京肯定是首选。

三、资本关注热

上图是我们（36大数据，编者注）对大数据垂直领域2015年资本投资事件的不完全统计。其实你仔细来看图会发现，大数据行业的资本关注热度是远远高于其他行业的。这个可以从投资金额可以看出来。今年上半年O2O项目非常热，也是投资重点关注的行业，但是投资的资本里，普遍都是人民币几百万和几千万这样的量级。而大数据行业的投资，更多的资本量级都是上亿的，而且资本多源于顶级投资机构。

大数据行业现状（内部环境）

“大数据就像十几岁少年眼中的性行为，每个人都在谈论它，但没人真正知道怎么做。每个人都以为除了自己之外的每个人都在使用它，所以每个人都装作自己很了解它。”

TED的创始人Dan Ariely是这样调侃大数据的。虽然是句玩笑话，但也确实说出了大数据的行业现状。

现状一、市场尚未饱和，竞争并不激烈

1、尚未出现垄断性行业巨头

前面我们分析了大数据整个大环境的状况，我们知道大数据行业市场潜力巨大，未来的增长率将达37%左右。但是在中国，目前尚未出现一家如Palantir、FICO这样的垄断性质的大数据企业。也许百分点和Talkingdata都在布局上市，但是距离挂牌还有一段时间和距离。新创的大数据企业中，还没有一家在美股、港股和深交所上市。

这是一个机会。创业你做电子商务也好，做游戏也好，都有好几家有钱有用户的巨头公司和你争抢市场份额，但是大数据行业不一样，大数据行业没有那么大的竞争压力，而且真正的战争尚未开始。

2、现有大数据企业扎推北京

根据数据堂统计的数据来看，新创的大数据企业中，57%的公司都在北京，上海占了15%的份额。大数据需要和实际的业务场景结合才能产生价值，工业、农业、制造、交通和能源等传统行业仍然拥有巨大的潜力，北上广深和二三线城市的大数据力量还没有完全被挖掘出来，这同样也是一个优势。

3、大数据在生活、商业渗透性较弱

笔者做大数据两年了，天天都听到或看到大数据的各种消息，但是生活并没有因为大数据的到来变得更智能一些。它没有让大龄光棍女青年更快更精准的找到结婚对象，也没用让隔壁老王炒股赚到更多的钱，更没有让北京的交通不再拥堵……大数据有用是不假，但是和生活场景结合得还是较弱。并没有看到可以称之为“变革”的现象。

4、没有直接的变现模式

互联网上最赚钱的两大行业分别是电子商务和网络游戏，这两个行业的变现模式都是非常清晰和直接的，但是大数据的变现模式需要绕一个弯子，需要和实际业务场景结合起来才能产生价值，不直接的路定然不好走。

有人曾经把大数据比作石油，可是，目前的情况看来，大数据行业还需要像发动机一样可以将数据转化成动力的载体。一如2010年以前一样，大家都知道手机游戏是未来的一个趋势，可是没有iPhone等智能移动设备的出现，手机游戏的市场份额就非常小，用户体量也很有限。

现状二、大数据行业人才紧缺

根据中国商业联合会数据分析专业委员会统计，未来中国基础性数据分析人才缺口将达到1400万，而在BAT企业招聘的职位里，60%以上都在招大数据人才。2015年-2016年是大数据人才最为匮乏的两年，因为已开了大数据专业的高等院校，第一批大数据人才还为毕业；已有的人才里，复合型的人才较少，都是术有专攻。

全球的大数据人才情况也不容乐观，据Gartner预测，到2016年，25%的全球大型企业将部署大数据分析系统；到2015年，圈球大数据人才需求将达到440万人；调查结果表明，全球64%的企业已经开始向大数据项目注资，或者打算在2015年6月之前将计划付诸实践。

大数据创业，人才就是核心，所有的公司都在抢大数据人才，创业公司想要招到相应的大数据人才非常困难。

现状三、数据量增长超快

这里和大家分享三个数字。49亿、250亿和 39ZB。

49亿物联网设备：咨询公司 Gartner 预测今明两年互联物品的涨幅将达30%。分析师在指出，截止到2015年，全球物联网设备数量将从38亿飙升至49亿。

250亿智能装置传感器：分析师预测，传感器的普及将大大加速智能设备的开发、生产进度。到2020年，将会有大约250亿部智能装置出现在全球市场。

39ZB数据存储量：在 2014 年年底，国内网络上集中存储的数据已经达到 1ZB，到 2020 年时，当年的新增数据量将会达到 15.45ZB，整体的网络上数据存储量将会达到 39ZB，未来 6 年的年复合增长率达到了 84%。

预测到 2020 年， 平均每个中国人每年产生的数据约为 4.1GB。

现状四：行业目前存在问题

1、炒作过剩，实际落地产品较少；很多产品都是打擦边球；把大数据玩坏了。现在你和大家说大数据，很多人都认为你在骗人。行业想要持续稳定的发展，企业必须有自律。

2、群众基础差，关注的人群多为三高人才，高学历高收入和高技术。从百度指数可以看出，关注大数据的人群中，53%比例的人群年龄分布为30-39岁，而20-29岁人群占的比例为28%；另外，关注大数据的男女比例里，男性占到了80%以上。这样的数字直接告诉我们的问题就是，“大数据”的话题传播性其实并不好。预计超过90%的大众用户不知道大数据是个什么东西。

3、大数据只解决了部分2B的问题，2C产品较少。现在大家都觉得大数据的方向就是2B，我们不这么认为。打个比方说，你做2B的产品，每家企业平均给你200万，新创大数据企业你撑死了一年做上20家企业，那么营收预计在4000万左右。但是如果你做2C的大数据产品，一个用户给你200块，当你做到20万付费用户的时候，你的营收就会超过4000万。为什么呢，因为用户的数据本身就是钱。从深远的角度来说，未来的创业，你必须学会讨好大众，服务好90后，这才是种子用户。

4、懂技术的人不懂业务，懂业务的人不懂商业。这一点不想做详细的说明，打击面太广了。笔者参加了众多大数据行业内的峰会大会小会，人人都在说大数据，可是问到你的业务如何赚钱的时候，很多人都是三缄其口。纯技术是无法赚钱的，必须和实际的业务结合起来产生商业价值，才能获益。

5、市面上存在的大数据工具上手门槛较高。又一个槽点出来了。前面也说了，任何的新技术，都是需求推动其发展。需求来自用户。任何的新技术，只有拥抱大众用户才能得到更好的发展，接地气非常重要。现有的大数据处理工具非常复杂，需要你懂这个那个会这个那个才能使用，大众根本接触不到。现有的大数据工具也不够亲民，无论是2B也好，2C也好，你需要给别人的是一个简单动动手就能用的工具，里面有功能按钮，而不是一堆代码，最起码应该满足目前Office工作人员使用。上手门槛较高意味着很大一部分用户被你挡在了门外。将大数据处理工具产品化势在必行。

大数据行业创业的风险预警

一、大数据的创业门槛

1、人才成本较高；在美国，在R、NoSQL和MapReduce方面需求的专业人才薪水达到了每年约11万5千美元，在中国，大数据人才一将难求，创业公司不容易招大数据技术人才，即使招到，人才方面支出也较高。包括高薪、期权和股票等等；

2、存储硬件成本高；考虑到数据归属和安全性。大数据公司一般不会数据存在云上。自建机房比云存储成本高很多倍。

3、项目启动资金高；不是30-50十万就可以玩起来的，比移动互联网APP创业项目启动资金要求高。

4、用户少、获取成本高。这一点的门槛主要是群众基础差带来的。

没有明确的商业变现模式，这是目前大数据创业的最大门槛。拼数据，你拼不过阿里百度腾讯，拼钱，还是算了……

二、数据安全问题

据Verizon发布的《2015年数据泄露调查报告》显示，79790个安全事件中已有2122个确认的数据泄露。值得关注的是在2015年的报告中新增了一个统计模型，用以帮助企业评估到底每笔数据泄露，要损失多少钱。如果泄露1000条记录时，有95%的可能会损失5.2万-8.7万。泄露1千万数据记录的花费介于210万到520万之间，但最多可能到7390万。

让我们来回顾一下近年来数据泄漏的事件：2014年5月，800万小米用户数据或被泄露；2014年12月，12306大量用户信息遭泄露；2015年4月，超30省市曝管理漏洞数千万社保用户信息或泄露；2015年5月，携程网全面瘫痪疑似数据库物理删除；2015年6月，美国人事管理局（OPM）被指出大量工作人员信息泄露；2015年8月，婚外情网站Ashley Madison数据遭泄露……

对于大数据新创企业来说，数据的安全性就是“命”，如何保命事关生存。大数据的安全性，是部署大数据架构和大数据创业最大的挑战之一！

三、大数据隐私

关于大数据隐私，在美国有隐私法案，而且美国与欧盟之间还签署了安全港、隐私声明等等。而在中国，目前的立法是非常模糊的，属于灰色地带。手机号码被恶意第三方收集了，然后给用户发了很多垃圾短信，或者我的姓名，我的电话，我的邮箱，他们收集我的信息是不是合法的，目前这一点在在立法上都不清晰。不知道未来国家会不会出台相关的法律法规来规范这个领域？大数据隐私目前具有不确定因素，也是创业存在的风险之一。

说完了风险，下面我们可以来说说大数据行业的创业方向和机会。

大数据行业创业机会与方向

一、资本层面关注点

对于大数据项目，投资人到底看什么？在写这篇文章之前，我们与多家投行的投资人曾经做过访谈，下面是我们根据访谈内容整理出来的内容。

大数据没有直截了当的变现模式，那么一个新创大数据企业想要获得成功，拿什么去拼？当然是人才。这也是投资人最关注的东西。

投资人告诉笔者，对于一个大数据项目，他们最看重的是团队。那怎么看团队呢？一般从团队技术能力、背景、过往项目经验和创始人四个方面来看。大数据对技术的要求非常高，投资人看项目的时候，首先看的就是创始人的技术能力。一般情况下，投资者会更加青睐拥有技术背景的创始人和他的项目。

还有就是看项目的商业模式和变现能力。看项目方面，投资人会去看你的项目对应的国外成熟企业，或者说你的项目对应的竞争者是谁。由竞争者经营的情况来预估你在其领域的市场份额和变现能力。商业模式方面，投资者会看你的客户（用户）体量和数据源。你的客户群体有多大？你手里有哪些具体业务上的数据？这些数据如何产生价值，应用到你的客户身上？解决好这3个问题就成功了一半。

大数据项目变现方向，投资人关注的是你的项目是否能够快速直接的产生价值，而且有持续的创收能力。

解决好以上几个问题，新创大数据公司想要拿到融资就非常容易了。

二、大数据垂直领域热门的投资方向

第一个是Hadoop 商业化，简单来说就是做Hadoop的收费版本。Hadoop本来是开源的，但是在具体业务场景中，还缺乏很多功能，那么Hadoop 商业化就是去完善这些功能，使其更好的应用于企业的业务场景。Hadoop 商业化最典型的公司就是Hadoop的三驾马车，Hortonworks，Cloudera和MapR，Hortonworks目前已经在纳斯达克上市。中国相应的做Hadoop 商业化的公司是星环科技。

第二个是SQL on Hadoop，用大白话来说就是基于应用场景下的数据框架。比如说大数据架构里的查询引擎、存储引擎、计算模型等等，这个主要是基于大数据技术方向的，比如说WibiData，它提供了对Hadoop的封装，连接前端应用到Hadoop基础设施。

第三个是NoSQL数据库，非关系型数据库和云数据库服务。典型的国外企业有MongoDB 和Datastax。目前，创业公司MongoDB的估值已超过16亿美元，而在中国，基础云服务商青云QingCloud已经推出了基于MongoDB的集群服务，名字叫做青云QingCloud MongoDB。

第四个是分析和可视化。对应的国外企业有Tableau、Datameer。国内新创的大数据企业中，也有很多大数据企业在做可视化服务，比如说国云数据的大数据魔镜。

第五个是行业大数据应用。为社交媒体、广告公司、企业客户、电子商务等行业客户提供数据分析，帮助这些行业提升数据分析的水平，如DataSift、RelateIQ、RocketFuel等创业公司。

三、大数据行业现有的商业模式

谈到商业模式，肯定就要说到2B还2C的问题。

2B是目前大数据行业主要的商业模式，将大数据变为一种服务，服务的对象是企业或机构。比如现有的大数据企业里，星图数据，Hortonworks，Cloudera，星环科技、Talkingdata 都是2B的商业模式。从他们的运营状况，不难看出，2B的商业模式，要么是做解决方案（类似外包），要么就是做工具。

预计未来所有的互联网企业也好，传统企业也好，都会在企业内部成立大数据部门，那么到那个时候，解决方案的市场份额还会多么？不肯到也不否定。对于一家企业来说，大数据就是自己的资产，相信企业更倾向于自己管理自己的内部资产。所以我们大胆的预测，解决方案只是目前大数据行业的权宜之计，未来企业会用自己的人才管理自己的大数据，用自己的人才使用自己的大数据。做工具是目前较为主流的模式。Palantir其实也是做工具。

2C方面，在整理这份内容的时候，我们发现2C的产品非常少。女性经期助手、百度指数这样勉强算是2C的大数据产品。而大数据2C方面的产品，更多的是倾向于应用。可穿戴设备其实也算是大数据应用产品之一。

说了这么多，你肯定会问我了，那么腾讯、百度和阿里巴巴这样的企业，他们的大数据又是什么样的模式呢？在笔者看来，BAT企业的大数据商业模式都是2C+2B的模式，我们可以简称为复合型的商业模式，因为他们服务的用户有企业用户也有个人用户。

总结一下，现有的商业模式里，哪个最好？笔者个人认为是2B+2C模式。这样的模式是最健康的模式，形成了一个商业闭环。

用一句话来说就是：你收集用户的数据，分析出报告，然后给到的对应的企业，对应的企业根据数据反馈，从而开发或制造出更好的产品，让用户享受更智能更美好的生活。这整个过程中，大数据是贯穿始终的。

那么，现有的大数据公司，都是如何赚钱的呢？

1、广告、营销。这一类主要集中在第三方大数据营销公司里。典型的企业包括缔元信、时趣这样的公司。他们主要的业务就是帮助大数据分析能力较弱的公司来做大数据分析，优化广告和营销的路径，使市场投入的非常产生更大的价值。

2、直接卖数据的公司。典型的企业有数据堂。

3、做工具或者服务。目前的移动统计工具就是这一类，还有做Hadoop套件的也是这一类公司。

4、卖报告或解决方案的。做大数据解决方案的公司就太多太多了，典型的公司为IBM。

5、跨界和融合。

Talkingdata联合创始人蒋奇先生告诉我们，Talkingdata后台有移动互联网各个热门手机游戏的数据，包括用户的设备数据、行为数据、日常数据和游戏里的消费数据等等。根据这些数据，可以对这些游戏用户进行用户画像。

以招行信用卡推广为例，Talkingdata通过大数据分析发现，《刀塔传奇》以及《我叫MT》这两款游戏的用户属性和招商银行信用卡中心需要的用户属性很契合，于是促成了招商银行和的合作，还支持了后续的信用卡积分的礼包和活动等。

这次合作为招行信用卡带来了5万个绑定用户。一般情况下，银行类的应用要实现转化的平均成本在两百到三百块钱之间，而这样的跨界合作，招商银行基本上没花一分钱，就达到了5万转化率，理论上省掉了上千万的费用。这就是跨界和融合。

跨界和融合，其实也是大数据思维里最重要的一环。大数据就像是钱一样，你得让它流动起来才能产生价值。

四、大数据行业的创业方向和机会

先说2B方向。

大数据创业的2B方向，更多的是做工具和服务，如数据可视化、商务智能、CRM等。

现有的大数据工具有着技术门槛高、上手成本高、和实际业务结合较差以及部署成本高，小公司用不起等特点。那么新创企业就可以根据以往这些产品的缺陷，来做更适合市场和客户的大数据分析工具和服务。另外，将大数据工具完整化和产品化也是一个方向。新一代的大数据处理工具应该是有着漂亮UI，功能按键和数据可视化等模块的完整产品，而不是一堆代码。

再说2C方向。

大数据一个很大的作用就是为决策做依据，以前做决定是“拍脑袋”决定，现在，做决定是根据数据结果。在我们的生活中，需要做决策的时候太多太多，尤其是像笔者这样选择性困难的天秤座，非常需要大数据来辅助决策。个人理财（我的钱花哪去了，哪些可以省下来）、家庭决策（孩子报考哪所大学）、职业发展/自我量化（该不该跳槽，现在薪水到底合适不合适）以及个人健康都可以用到大数据。

【图：大数据应用的现状和机会】

五、我们的创业建议

1、想清楚谁为你买单（找用户）；

2、痛点是什么（找需求）；

3、稳定/独特的数据源（找数据）；

4、靠谱的人做靠谱的事（找人才）；

5、考虑2C的产品方向；

6、忘记科技行业过往经验；

7、将大数据产品化（小而美）；

8、深耕一个领域，不断的试错和迭代。

其他新创大数据公司创始人也提出过自己的建议。九次方大数据集团总裁王参寿认为深耕大数据领域，坚持才是王道：“大数据行业创业就像爬泰山，爬不到山顶，看不到太阳。”

国云数据CEO马晓东表示，“不要跟着概念创业，从真实需求出发，从企业和用户对数据的需求出发做大数据产品，找准自己的定位是关键。”

参考
王峰初入职场
0
举报回复
理由

举报取消

本人目前在A从事2B的大数据解决方案与产品设计工作，以大数据商业化为目标，各行业客户都有，简单跟大家分享下我们目前的大数据落地实操经验。

一、厚积薄发：谈谈BAT平台优势

大数据这块做的好的平台，就个人来看，A算做的不错了，从云计算的布局到大数据，步步为营，也是筚路蓝缕。大公司的优势在于三个字，熬的起。业务几乎都是以平台、生态的构建为目标，最终是enable别人成功，并从别人成功中获益的模式。

在这个过程中，有4点优势会体现出来：
1. 电商行业能力通过云计算炮台对外部输出。这块之前我还存在一定的误区，认为电商行业的经验固然重要，但是真正实操应用其他行业的时候，可能失效。这块关键的是视野、思路、方法论。比如电商沉淀下的大数据管理、用户标签体系设计、流计算/实时计算的场景与应用、个性化推荐的策略等等，当遇到类似场景的时候，你会心领神会的借鉴当初的思路，去帮助其他行业解决，去探索。填充了你的弹药库，而不是两眼一抹黑的干。另一方那面，电商行业的成功经验，能够让我们快速从中抽取与提炼核心组件与模块，快速产品化，在大数据的平台首页 – 数加平台上架官方的大数据产品，冷启动数据市场，比如我们的推荐引擎、DataV可视化引擎、数据开发工具、机器学习平台，这些原来都是内部用户的，或者电商用的，现在拿出来，让其他行业用，能够快速抢占市场，占位。
2. 云计算的长期积累，夯实了IAAS与客户基础。通常意义上，我们内部对大数据路线有个约定俗成的三字经“存-通-用”，做大数据、大数据首先要有数据，阿里云多年积累已经夯实了IAAS层，为后续的大数据业务一方面提供成型的基建如ECS、OSS、OTS、ADS等等，可以说很好的解决了“存”的问题，另一方面，多年积累的客户，在IAAS温饱满足的同时，有客户特别是头部的大B客户越来越多涌现比如如何用好数据、加工数据、用数据助力业务的诉求，这就给大数据业务的开展带来了机会。
3. “丁”字型的人才储备深度，在业务快速发展阶段能够相互补位。一般业务刚兴起时缺人比较严重的首先是前端、其次是产品，然后是数据、算法，待到技术可行的阶段，就是销售。大公司的人才储备，特别是复合型的人才，能够为新兴业务发展快速注入新鲜血液，并通过转岗机制确保良性兼容，老人做新业务，非常高效。
4. 品牌影响力在业务拓展上的助力。这块并非绝对，当然很多场合下，阿里巴巴这个品牌本身就是实力、信誉的保障。今天我们对外输出大数据能力的时候，很多时候确实也利用到了这块的影响力，毕竟数据业务本身是一个公司的核心资产，对乙方都需要在技术与商业道德上进行双重考量，所以很多号称“第三方独立”数据服务公司也就浮出水面，一方面中立的身份，另一方面依赖或者嫁接多平台，不绑死。
二、他山之石：看看A现在是怎么做大数据的

我们从商业层面去做大数据业务，通过商业来拓展技术的边界，同时也让客户认可价值，并买单，从而变现。更准确的讲，我们现在不是做大数据变现，而是做的大数据能力变现，将我们在人工智能、数据管理、数据应用的框架、引擎去帮助客户解决具体的业务问题，帮客户用好自己的数据是第一要务，然后才是用别人的数据补充自己，最后才是用自己的数据服务别人。我们看几个典型的场景

case 1：服务某互联网创业公司

互联网公司一般跑的比较快，特别是业务，很多时候初期是堆人、砸钱来堆用户数、订单等，技术外包比较常见，特别是当前环境。理所当然，这块也带来了大数据业务的机会，比如在020外卖场景下，如何分配好订单，使得运力的利用率最大化，同时在指定时间内能满足叫单需求。这类业务可以说之前就没出现过，也几乎没多少人工运营的经验，很多时候运营就是凭直觉也好，或者所谓的经验也好，来派发订单。我们的机会点在于：虽然这是对方的核心业务，但是总这块内容需要人，一时半会招不到人，同时不做这块业务，每天会有大量的补贴在补贴运力与处理投诉，是很大一笔开支，从这两点考虑，是不是该做？

case 2：服务某传统技术型公司

该公司技术县先进，能够进行快速实景的3D建模，但是有个“最后一公里” 的问题非常致命，现有的重绘技术比较落后，需要2-3天才能重新根据大量测绘数据绘制出3D模型，不及时，使得应用的场景受限。能否将原来绘制时间由天级别缩短到小时级别甚至分钟级别？从而拓展应用场景，更好的进行商业化？

case 3：服务某传统制造业企业

客户是世界最大的某材料生产企业之一，日产千万件，每件根据质量划分不同的等级，不同的等级价格不同，而良品率的提升直接与收益挂钩，客户已经具备初步的数据采集能力，但存储的数据未开发，也带来不小的存储成本，生产流程靠经验或理论，没有快速优化与验证的闭环，如何利用现有数据，提升良品率优化生产线？去低效产能的同时，赋能“智”造！？

可以看到，目前的玩法并不是通常意义上大家理解的精准营销、广告、人群画像，或者输出一份分析图表的大数据，而是从客户的问题出发，并且直接影响到生产或者业务效果的落地，让客户认可我们的价值，从而来商业化。

三、围三缺一：现阶段大数据业务下的BAT目前缺什么

一般而言，作为平台方位保障公平，我们不会既做裁判员、又做运动员，大部分情况下，平台做提供的是通用型的产品、基础性的服务，留出二次开发、增值开发的空间，enable别人成功。当然现阶段为了更好的启发市场，平台方需要自己做出标杆，告诉大家怎么做，从而揭竿而起，期望应者云集，基于我们的云平台来创新、创业。在这个框架下，有几点痛点：
1. 缺技术型人才，我们挖掘的场景很多，技术需求量比较大，比如算法、比如前端、可视化设计等，我们缺合格靠谱的技术型ISV来与平台共建、分成。
2. 大数据的商机很多，我们缺少那些熟知某领域关键问题的合作伙伴，给平台带来商机与挑战，给平台提需求，让平台帮你成功。
3. 对于平台现在提供的产品与服务，我们缺强力的合作伙伴，能够挖掘现有产品的业务价值，在其他行业上能够给用起来，能够进行二次开发，能够增值，一起赚钱。
4. 缺数据，对于有任何数据沉淀的合作伙伴，我们都欢迎一起坐下来聊聊，共同开发数据价值，服务云上客户。
5. 对于平台暂时无法满足一些行业垂直类需求，我们期望能够联合这方面有突出能力的合作伙伴一起打单，在阿里云2B的大数据解决方案中，也会有这些ISV的一席之地。
四、创业机会

分析到这，差不多也比较明确，创业者的机会抓住以下几点关键词：独立第三方、基于云、补生态，再明确下：

（1）从生态视角来看
- 技术合作伙伴：可以基于云，帮忙卖平台的成品（渠道）、可以基于平台的服务或者产品二次加工再卖（增值服务），可以做自己独立的产品（合作共建），配合平台一起打单。
- 人力合作伙伴：可以是三五个人，无论是算法还是数据能力，基于我们的阿里云大数据众智平台，接活。
- 数据合作伙伴：将自身无论通过哪类渠道沉淀的数据，通过平台提供的产品，对外输出，进行变现。借助平台的力量帮助变现。
（2）从大数据本身来看

如果我们不看生态，或者不依赖平台，当然也可以，我个人对大数据业务或者说大数据产品的判断：
大数据产品 = 数据 + AI + 传达
赵文泽初入职场
0
举报回复
理由

举报取消

创业的门槛极高现在是跑马圈地的时代要么你有钱要么你拿一堆专利要么你找到靠谱的商业模式
何静初入职场
0
举报回复
理由

举报取消

15年的答案，已经不适合当下。不要看了。

以下是原始答案：我家有个团队现在搞大数据，我现在度假，本来不打算谈工作的，看到这个还是很想和大家聊一下下。一句话。大数据创业，绕开BAT，找准红利，就好。（本文有一些文字来自行业内一个公众号，如果有人发现了，没错，她说的就是我家。）

大数据的红利在哪？

处在大数据最上游的是数据产生端，其中最有代表性的是BAT这样的企业。与数据生存者对应的另一端是需求端，即服务主体，同样是包括政府、机构、企业、个人。而处在中间的则是数据的处理加工商，如我家这个团队。

那么，红利在哪里呢？首先，数据生产端红利已尽。BAT因为自有数据资源可以自嗨，比如百度有“百度迁徙”、“百度精算”；阿里有 “阿里云”、“支付宝-花呗”；腾讯有 “腾讯云分析”，BAT自产自销模式代表了大部分拥有数据源的玩家。

那么剩下的红利就集中在了中间部分，其中有两种模式：
- 模式一：与业务场景结合，做产业类平台，如同花顺、恒生电子。
- 模式二：数据的再加工利用，即从运营商、互联网公司获取原始数据信息来进行分析，再提供给用户关于价值和趋势的信息以换取价值。
相比于模式一的深耕，模式二因为进入门槛、资源要求度都相对较低，所以我家选择以这种形式进行切入。

既然类似我家这样的小微企业，先天没有数据源的优势，那么如何让数据在流通过程中增值呢？

让数据在流通过程中增值的方法

（1）降低数据来源的成本

最普遍的方法包括通过第三方购买数据、爬虫爬回数据、合作方授权数据、免费的开放数据。数据获取中肯定要付出人力、资金成本，所以解决数据源是大数据创业公司首要面临的问题。

目前行业做得较创新的是“数据堂”，这家作为挂牌新三板的第一个大数据资源公司，采用“众包”形式，由服务企业提出需求，数据堂直接通过众客堂采集数据。同时，众客堂用户也是处理数据的方式，可甄别数据真伪和有效性。

当然，相比于成熟型的数据公司，我家还未具备这样的数据采集实力，所以其倾向于用合作授权数据的形式，低成本获得独家数据源。

（2）着眼于未来的数据加工

数据加工包括整理合并、优化、排错等方面，数据本身庞杂无章，精炼后的数据能够发掘其中的规律性而进行精准应用。当然，这只是数据加工的通用价值，大数据创业公司关键要解决数据价值深化或兑现的问题。

我家做出两个选择：
- 与垂直领域对接发现价值
因为消费升级、移动互联网的人口红利消失，那些大规模的对受众社会属性不加区分的水平产品很难生产。在大数据时代，通用型信息的价值正减小，任何拥有数据加工能力的人都可说出用户画像，但针对垂直领域的数据价值需求则需深耕才能解决。
- 预测未来比看见现在更重要
我家从成立之初就专注在“算法”上，用模式识别的方式形成自己的经验库以预测用户的未来行为，区别于竞争对手赚解决方案服务费的方式，这也符合其技术驱动型团队的特点——更看中“稳”而不是“快”。

（3）用“mall”的形式

作为大数据元老级公司的“数据堂”15年推出了国内第一家网上数据商城“Data Mall”，数据商城的形式最大化地提高了数据交易效率，简单理解就是在通用的入口，用户可以进行重复消费；同时，平台方通过商城获得接入用户的机会，用户成为“传感器”——作为流量入口，又将数据反馈至商城上，担任消费端和供给端的双重角色。

我家也在筹建这样的“轻模式”，除了上述提及的优势，考虑到基于用户需求的非标准化特性，API接口（应用程序编程接口）本身是很难进行标准化的，所以“mall”的呈现方式在一定程度上解决了API形式上的标准化，同时，“mall”改变了传统打包服务的模式，减少在销售、推广、人力上的成本。

当然，大数据创业的成功还有一部分因素是依赖在大势上。

（4）政策上的大势

2015年7月，国务院办公厅发布《关于运用大数据加强对市场主体服务和监管的若干意见》，这是顺应大数据时代潮流，运用现代信息技术加强政府公共服务和市场监管，推动简政放权和政府职能转变的重要政策文件。

文件表示将充分认识运用大数据加强对市场主体服务和监管的重要性、运用大数据提高为市场主体服务水平、运用大数据加强和改进市场监管、推进政府和社会信息资源开放共享、提高政府运用大数据的能力和积极培育和发展社会化征信服务等。

（5）行业上的机会

目前较有代表性的大数据公司是“数据堂”和“聚合数据”，共同特点是拥有如BAT量级的大B用户。但相当部分的小B企业以及政府决策、公共服务、金融、电信等领域对数据存在需求，再加上数据供给端也出现了多元化的现状，所以大数据行业本身很难做到一家独大，类似于我家这样较小型的数据处理公司还是有机会在其中馋食大数据的红利。

创业的机会在哪里

我家团队认为现在大数据产业链才开始发展，大众都把目光聚焦在大数据的两端：一是谁拥有这些数据，二是这些数据到底如何使用。但仅仅在两端是不能解决大数据问题的。

大数据产业的大量机会出现在中间环节，包括采集、聚合、机器学习加工后的数据通过智能管道合法流入到用户的手里。

广东省即将推出的大数据交易平台也验证了这种想法，大数据产业会把更多的机会留给擅长产品和技术的方面的团队，这块可能是今后5年的蓝海，大数据产业链的发展将行业带入真正的人工智能时代。

–大家请留言，我们一起讨论。
桑文锋初入职场
0
举报回复
理由

举报取消

我是桑文锋，Sensors Data的创始人&CEO，目前正好在做大数据方向的创业，我谈谈我自己的创业方向。

我个人2007年浙大研究生毕业后就加入百度，在百度呆了8年，第一年在百度知道做研发，从2008年开始基于Hadoop做了个日志统计平台，因为大大提升了开发效率和运行效率，经过一年半的时间统一了全百度的日志统计工作，之后一直围绕数据方向。在2011、2012年的时候，大数据的概念火了，我忽然发现我掌握的技术竟然变得很有价值。但我当时觉得这些技术是屠龙术，哪里有龙——B、A、T，我换工作也只能这三家跳来跳去。

可这两年我发现有两个比较大的变化，一是移动互联网的发展，大家上网时间长，产生了更多的用户数据，二是传感器的发展，就像我的Apple Watch可以采集我的心率和运动数据，采集了更多的数据源。这就导致了即使一个创业公司，也拥有比较多的数据。大数据的理念让大家认识到了数据的重要性，一个创业公司也想做数据分析。但这块的人才又稀又贵，以前只有BAT培养了一批。这块技术很复杂，招一两个不顶用，只能满足常规统计需求。要想开发一套大数据分析平台，起码需要3-5人做上半年以上，这只能做个60分的东西，研发投入非常大。这里就有一个Gap，我们可以提供市场一个90分的数据分析工具，来解决大家的需求。

市面上已经有了一些统计分析工具，如做的比较好的百度统计，友盟等。它们简单易用，并且免费。但还有些不足。一是数据源上，只能通过Js或App SDK覆盖客户端的数据收集，但服务器和数据库的数据无法采集到，这样在数据源上就不够全。我在百度这几年的数据处理心得是，要想把这件事做好，最重要的就是数据源。数据源整好了，后面的事情都好办，数据源要尽量整的全和细。二是分析能力上，因为是标准的SaaS，只能提供一些宏观基础的统计分析，一些深度的数据分析是做不到的。如来自北京的年龄到20-25之间的女性用户，最近一个月有十次购买行为，我想分析她们的客单价情况。三是数据安全上，稍大一点规模的公司，不愿意把自己的核心数据放在第三方平台上。

我们Sensors Analytics是一个纯粹的数据分析工具，不拥有用户的任何数据。相比之下，有三个特点，一是提供私有部署和Cloud版，对数据安全比较顾虑的，可以选择私有部署，这样部署在客户自己的服务器上，数据根本不会出公司，这样就没了数据安全问题。二是我们提供灵活的多维分析，用户只要把维度接入进来，就可以进行实时的多维交叉分析，秒级响应。至于我们为啥在这块这么有信心，请看我的文章《在多维数据分析模型的道路上越走越远》。三是帮助客户搭建了底层的数据仓库。我认为数据的用途主要有两点，数据驱动决策和数据驱动产品。我们所说的BI，都是在支持决策拍板的。但我认为这里只发挥了数据的20%价值，更大的价值在于数据驱动产品，就像百度搜索中，那些用户点击量比较大的结果，排在前面，让产品更智能。如果要做后者，使用了已有SaaS服务，就要从零开始构建数据的采集、传输、建模存储、查询分析这一整套底层架构，而用我们的产品等于一箭双雕，帮你打好地基，可以在此基础上进行二次开发，对接已有的CRM或做数据挖掘。

我们产品9.25正式对外发布了，所谓发布就是在朋友圈转发一下，我本来以为有100个试用申请就不错了，结果两天时间就有了500个，大大出乎我的意料，说明市场需求还是很旺盛的。目前已经有了30家正式客户，包括爱鲜蜂，多盟，AcFun等。

说了这么多，到底这东西是怎么一回事。我写过一篇文章分析产品正式发布那两天用Sensors Analytics分析我们自己官网的情况，见《Growth Hacking实践之Sensors Analytics 1.0发布》。之前在36Kr上打过一天的广告，这是我做的一个分析《在36Kr投放广告的一天》。
李宁初入职场
0
举报回复
理由

举报取消

一是数据交换。数据货币化一直是整个大数据行业的难题，目前可变现的方式之一即卖数据。但TalkingData不想做一个单纯的卖数据的公司，而是希望把数据看成平台性的业务。

移动互联网是一个精准的数据源，通过一个人发布的上下文、活动半径、行为喜好等，可以准确地标识出一个人的属性。但这些正是移动互联网的大数据变现的难点。

而这正是TalkingData要做的。这很有挑战，数据交易已经存在很长时间了，但在中国，大部分数据交易都处在灰色地带中。你买车、买房留下手机号码，引来后续一系列保险公司、营销短信，这些已屡见不鲜。一个人的隐私数据反而没有被保护。

TalkingData希望将这个交易合法化和正规化。我们在试图找到数据交易的红线，找到合法合规地利用数据交易的方式，这包括对消费者的隐私和权益做完善的保护。

所有数据在TalkingData的平台落地保存时，都要经过加密处理。一个人的地址、手机号码、身份证号，在TalkingData的交易平台里面，都是被禁止落地保存的——因为很多利用数据的场合不需要这么精准，只要大概需要知道他们的兴趣就可以了。比如母婴类人群可能近期有奶粉或婴儿用品的需求，我们能够去做精准的投放就可以了。

大家都在数据商业化的范畴内去寻找尺度，TalkingData最近也跟很多有大量数据的平台交流，比如视频网站的用户的观影行为是什么样的?他们喜欢玩游戏还是喜欢旅游?数据如果不能流动起来，就没有用，因为你只能拥有很少量的客户资料，无法去使用它。又比如一个信用卡公司和一个旅游网站的数据非常互补，但他们都需要数据平台去进行交换，否则没有交易规则，也没有交易标准，就不可能完成交换。

二是更火爆的O2O。我们试图通过大数据去改变传统行业的成本结构。

以北京为例。TalkingData可以为朝阳大悦城、爱琴海购物公园这些热门商场帮商家做用户的行为调研，测试顾客的金融交易过程：顾客在耐克门店停留了多久?他有没有去阿迪达斯的门店?这些测试方法已经非常完善，和线下商家的合作效果已经超过了他们在线上投放广告的效果。

虽然这些商场也可以在各处置放摄像头，采集人流数据，根据结果决定次年的招商，但这些只能反映客流的热点图并不能直接带来商业效益。而且还要有更细致的区分，比如餐馆是选址导向，热点图对餐馆来说几乎无用;时装品牌更是只看竞争对手的店面，都有哪些人群光顾。而TalkingData可以给商场提供一份完整的数据报告，这份报告通过和若干个合作伙伴(如地图应用)的合作而得出。

在传统领域，TalkingData有独特的优势。虽然现在有不少互联网巨头瞄准了这个领域，但其实大型的线下零售商很抵触互联网巨头，对我们这样的创业公司抵触就会小得多，由我们去切入传统领域，效果也好得多。

今年，TalkingData已经切入了四个传统领域。在金融服务业，我们利用数据帮保险公司和银行决策应该推广哪些理财产品;对线下零售商户，我们可以告诉他们如何吸引已经离开的客人再回来;在汽车领域，同样与4S店和厂商展开了合作;此外，还试水了旅游领域。我们的投资方之一Milestone 就是一支专门在中国投资的基金，未来也会为我们引荐它在消费领域的其他投资项目，从而展开数据合作。
wang z 管理大师
0
举报回复
理由

举报取消

大数据等于hadoop之各种业务应用

绝大多数人是写不出hadoop的
齐天大圣大脚兔初入职场
0
举报回复
理由

举报取消

回答者背景：国内最大医疗体检数据公司任职，金融专业辅修统计。分析过去10年近3000万人的体检数据并实现一定变现。

先说个好消息：在细分领域BAT还真不一定能赢，行业内的企业是有机会的。

坏消息：没有细分行业积累的创业公司都别想了，这个行业的数据你获取不到。

切入数据分析行业的方法：
1. 自有数据。任何行业都行，比如农业，工业，医疗等等业内的公司本身运营了多年积累了不少数据的，可以盘活这些数据，挖掘出价值后反哺本公司，或者开放这个能力给行业内其他公司或者上下游公司，让大家都提升效率或者创收。
2. 有能力接入某个现存的行业数据库，比如金融类数据，一般是保存比较完善的。接入后feed自己的算法，不断完善。但correlation doesn’t mean causation, 能否产生实际价值也两说，况且这个数据库本身能否做到数据更新等问题也不可控。如果成了，可以考虑卖了，不管是BAT还是行业内公司。
所以总结来说想做数据分析公司的首要条件：能够持续获得较为全面的数据，最好能有拥有权，至少得有使用权。
九零初入职场
0
举报回复
理由

举报取消

所有在数据领域的竞争在我看来无非就两块:1 如何拿到你想要的数据。 2 数据拿到以后，如何处理——也就是程序算法的设计和数据可视化。

前者举个例子比如无人汽车。这方面谷歌在09年就做出来了，国内百度在做。(阿里在做云汽车，xx在做电力汽车)，而未来的趋势将是三种技术合流，也就是”可以播放互联网音乐可以玩游戏的、以电力为驱动的无人汽车”。用脚趾头想想也知道，无人驾驶技术是其中核心。

为什么无人汽车是谷歌和百度在做? 美国的三大汽车公司他们都是吃白饭的?传统的汽车企业就这么甘心让你一个互联网公司抢了这块奶酪去?无人汽车需要的是城市卫星地图数据库，而传统的汽车行业谁都不可能有这份数据。这份蛋糕只能是被互联网公司拿到。所以你会看到居然是goggle做出来了~

第二块数据处理例子就太多了比如亚马逊/艺龙/携程他们对用户的个性化推荐。这牵扯到机器学习和智能化。未来的趋势是任何一个购物网站，每一个人登录所看到的商品都是不一样的。比方说我登录亚马逊你就应该根据我的喜好推荐中东历史类/国关类题材的书籍——更进一步地说，是帮助我发现这方面的优秀书籍。应用这种智能化推荐的网站，用户的购物体验和效率都有明显的提升，而网站在销量上也能比同行甩开明显的优势。

比如之前的知乎提问:百度云是怎样识别黄片的;

比如以色列移民局利用新浪微博鉴别入境人员，有兴趣的同学可以去找找上期的《鸿观》;

比如保险公司利用对用户在所有网站身份的和消费行为的识别建立信用评估并判断用户的借贷能力;这方面支付宝的蚂蚁金服在做;

比如著名聊天机器人微软小冰……

数据可视化等我中午回去放个链接

你可能感觉这里边儿好像没小公司什么事，因为数据分析和数据挖掘都是以T字节(也就是1024个G)为基本单位单位计算的。只有数据量够大，机器学习才能足够智能。你换个角度想:只有数据足够大，公司才愿意下那个本儿去研究用算法去分析数据啊。如果百度云全球每天只上传500部电影，那我还雇个毛的程序员啊，直接人工鉴黄师不就得了嘛(/摔)。
小宇宙初入职场
0
举报回复
理由

举报取消

可参考：大数据最核心的价值是什么？ – 小宇宙的回答

“大数据”这个概念大约是从2011年开始火起来的，如果从Apache
Hadoop项目的正式启动算起，海量数据的分布式存储、管理和计算技术已有10年的历史。这10年里，创业圈逐渐流行起一种通病，即凡创业必称“大数据”，“大数据”像是一个筐，似乎任何装进去的创业项目都能做到百亿甚至千亿市值的规模。这个被说烂的词到底是什么东西？它是一项技术、一个产业还是一种思维方式？当越来越多的人将兴趣转移到AI、VR上时，也许是时候重新审视大数据的价值了。

在IT领域，一项技术的价值得以验证并实现往往需要走完四个阶段：技术原创、开源、产业化和广泛应用。在这个过程中，新技术的使用从互联网巨头企业蔓延到整个互联网领域，并随着其产业生态的日臻完善，最终应用到更广泛的社会和行业领域。“大数据”也不例外，它经历了底层技术的兴起和发展、产业生态的构建，正逐步渗透到每个企业的数据化战略之中。只有把握整条脉络，窥探“大数据”的全貌，才能理解这项技术的缘起和未来。

———————————————————技术篇————————————————————

移动互联网时代，数据量呈现指数级增长，其中文本、音视频等非结构数据的占比已超过85%，未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。

从2006年4月第一个Apache Hadoop版本发布至今，Hadoop作为一项实现海量数据存储、管理和计算的开源技术，已迭代到了v2.7.2稳定版，其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态，包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从1.0版的三层架构演变为现在的四层架构：
- 底层——存储层
现在互联网数据量达到PB级，传统的存储方式已无法满足高效的IO性能和成本要求，Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准，其上层正在涌现越来越多的文件格式封装（如Parquent）以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面，区别于常用的Tachyon或Ignite，分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范，得到了众多开发者和产业巨头的支持。

区别于传统的关系型数据库，HBase适合于非结构化数据存储。而Cloudera在2015年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成，它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。
- 中间层——管控层
管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce1.0的YARN已成为Hadoop
2.0的通用资源管理平台。如何与容器技术深度融合，如何提高调度、细粒度管控和多租户支持的能力，是YARN需要进一步解决的问题。另一方面，Hortonworks的Ranger、Cloudera
的Sentry和RecordService组件实现了对数据层面的安全管控。
- 上层——计算引擎层
在搜索引擎时代，数据处理的实时化并不重要，大多采用批处理的方式进行计算。但在SNS、电子商务、直播等在线应用十分普及的今天，在不同场景下对各类非结构化数据进行实时处理就变得十分重要。Hadoop在底层共用一份HDFS存储，上层有很多个组件分别服务多种应用场景，具备“单一平台多种应用”的特点。例如：Spark组件善于实时处理流数据，Impala实现诸如OLAP的确定性数据分析，Solr组件适用于搜索等探索性数据分析，Spark、MapReduce组件可以完成逻辑回归等预测性数据分析，MapReduce组件可以完成数据管道等ETL类任务。其中最耀眼的莫过于Spark了，包括IBM、Cloudera、Hortonworks在内的产业巨头都在全力支持Spark技术，Spark必将成为未来大数据分析的核心。
- 顶层——高级封装及工具层
Pig、Hive等组件是基于MapReduce、Spark等计算引擎的接口及查询语言，为业务人员提供更高抽象的访问模型。Hive为方便用户使用采用SQL，但其问题域比MapReduce、Spark更窄，表达能力受限。Pig采用了脚本语言，相比于Hive SQL具备更好的表达能力。

在结构化数据主导的时代，通常使用原有模型便可以进行分析和处理，而面对如今实时变化的海量非结构化数据，传统模型已无法应对。在此背景下，机器学习技术正慢慢跨出象牙塔，进入越来越多的应用领域，实现自动化的模型构建和数据分析。除了Mahout、MLlib、Oryx等已有项目，最近机器学习开源领域迎来了数个明星巨头的加入。Facebook开源前沿深度学习工具“Torch”和针对神经网络研究的服务器“Big Sur”；Amazon启动其机器学习平台Amazon Machine Learning；Google开源其机器学习平台TensorFlow；IBM开源SystemML并成为Apache官方孵化项目；Microsoft亚洲研究院开源分布式机器学习工具DMTK。

———————————————————产业篇———————————————————

一项技术从原创到开源社区再到产业化和广泛应用往往需要若干年的时间。在原创能力和开源文化依然落后的中国，单纯地对底层技术进行创新显然难出成果。尽管如此，在经济转型升级需求的驱动下，创业者大量采用C2C（Copy to China）的创业模式快速推动着中国大数据产业的发展，产业生态已初步成型。
- （一）产业基础层
如果说数据是未来企业的核心资产，那么数据分析师便是将资产变现的关键资源。以数据流通及人才培养和流通为目标，社区、众包平台、垂直媒体、数据交易平台是数据产业发展壮大的土壤。
1. 社区大数据技术社区为产业建立了人才根基。社区天然具备社群和媒体属性，自然吸引了众多专业人才。正基于此，开源中国社区（新三板挂牌企业）和Bi168大数据交流社区同时开展了代码托管、测试、培训、招聘、众包等其他全产业链服务。
2. 众包人力资本的高效配置是产业发展的必要条件。Data Castle类似于硅谷的Kaggle，是一家数据分析师的众包平台。客户提交数据分析需求、发布竞赛，由社区内众多分析师通过竞赛的方式给予最优解决方案。
3. 垂直媒体 36大数据、数据猿、数据观等大数据垂直媒体的出现推动了大数据技术和文化的传播。它们利用媒体的先天优势，快速积累大量专业用户，因此与社区类似，容易向产业链其他环节延伸。
4. 数据交易平台 数据交易平台致力于实现数据资产的最优化配置，推动数据开放和自由流通。数据堂和聚合数据主要采用众包模式采集数据并在ETL之后进行交易，数据以API的形态提供服务。由于保护隐私和数据安全的特殊要求，数据的脱敏是交易前的重要工序。贵阳大数据交易所是全球范围内落户中国的第一家大数据交易所，在推动政府数据公开和行业数据流通上具有开创性的意义。
- （二）IT架构层
开源文化为Hadoop社区和生态带来了蓬勃发展，但也导致生态的复杂化和组件的碎片化、重复化，这催生了IBM、MapR、Cloudera、Hortonworks等众多提供标准化解决方案的企业。中国也诞生了一些提供基础技术服务的公司。
1. Hadoop基础软件 本领域的企业帮助客户搭建Hadoop基础架构。其中，星环科技TransWarp、华为FusionInsight是Hadoop发行版的提供商，对标Cloudera CDH和Hortonworks的HDP，其软件系统对Apache开源社区软件进行了功能增强，推动了Hadoop开源技术在中国的落地。星环科技更是上榜Gartner 2016数仓魔力象限的唯一一家中国公司。
2. 数据存储/管理 2013年“棱镜门”后,数据安全被上升到国家战略高度，去IOE正在成为众多企业必不可少的一步。以SequoiaDB（巨杉数据库）、达梦数据库、南大通用、龙存科技为代表的国产分布式数据库及存储系统在银行、电信、航空等国家战略关键领域具备较大的市场。
3. 数据安全 大数据时代，数据安全至关重要。青藤云安全、安全狗等产品从系统层、应用层和网络层建立多层次防御体系，统一实施管理混合云、多公有云的安全方案，并利用大数据分析和可视化展示技术，为用户提供了分布式框架下的WAF、防CC、抗DDoS、拦病毒、防暴力破解等安全监控和防护服务，应对频繁出现的黑客攻击、网络犯罪和安全漏洞。
- （三）通用技术层
日志分析、用户行为分析、舆情监控、精准营销、可视化等大数据的通用技术在互联网企业已有相当成熟的应用。如今越来越多的非互联网企业也在利用这些通用技术提高各环节的效率。
1. 日志分析 大型企业的系统每天会产生海量的日志，这些非结构化的日志数据蕴含着丰富的信息。对标于美国的Splunk，日志易和瀚思对运维日志、业务日志进行采集、搜索、分析、可视化，实现运维监控、安全审计、业务数据分析等功能。
2. 移动端用户行为分析
  为提升产品用户体验，提高用户转化率、留存率，用户行为分析是必不可少的环节。TalkingData和友盟等企业通过在APP/手游中接入SDK，实现对用户行为数据的采集、分析与管理。大量的终端覆盖和数据沉淀使得这类企业具备了提供DMP和移动广告效果监测服务的能力。GrowingIO更是直接面向业务人员，推出了免埋点技术，这一点类似于国外的Heap Analytics。
3. 网站分析 百度统计、CNZZ及缔元信（后两者已与友盟合并为友盟+）等产品可以帮助网站开发运营人员监测和分析用户的点击、浏览等行为，这些公司也大多提供DMP和互联网广告效果监测服务。
4. 爬虫网页爬虫是一种快速搜索海量网页的技术。开源的爬虫技术包括Nutch这样的分布式爬虫项目，Crawler4j、WebMagic、WebCollector等JAVA单机爬虫和scrapy这样的非JAVA单机爬虫框架。利用这些开源技术市场上出现了很多爬虫工具，其中八爪鱼的规模和影响力最大，该公司也基于此工具推出了自己的大数据交易平台数多多。
5. 舆情监控 智慧星光、红麦等互联网舆情公司利用网络爬虫和NPL技术，为企业用户收集和挖掘散落在互联网中的价值信息，助其完成竞争分析、公关、收集用户反馈等必要流程。
6. 精准营销/个性化推荐 以完整的用户标签为基础，精准营销、个性化推荐技术在广告业、电商、新闻媒体、应用市场等领域得到广泛应用。利用SDK植入、cookie抓取、数据采购和互换等途径，TalkingData、百分点、秒针、AdMaster等众多DSP、DMP服务商积累了大量的用户画像，并可实现用户的精准识别，通过RTB技术提高了广告投放的实时性和精准度。将用户画像及关联数据进一步挖掘，利用协同过滤等算法，TalkingData、百分点帮助应用商店和电商平台搭建了个性化推荐系统，呈现出千人千面的效果。另一家利用类似技术的典型企业Everstring则专注于B2B marketing领域，为用户寻找匹配的企业客户。
7. 数据可视化
  可视化是大数据价值释放的最后一公里。大数据魔镜、数字冰雹等公司具备丰富的可视化效果库，支持Excel、CSV、TXT文本数据以及Oracle、Microsoft SQL Server、Mysql等主流的数据库，简单拖曳即可分析出想要的结果，为企业主和业务人员提供数据可视化、分析、挖掘的整套解决方案及技术支持。
8. 面部/图像识别 面部/图像识别技术已被广泛应用到了美艳自拍、身份识别、智能硬件和机器人等多个领域。Face++和Sensetime拥有人脸识别云计算平台，为开发者提供了人脸识别接口。汉王、格灵深瞳和图普科技则分别专注于OCR、安防和鉴黄领域。
9. 语音识别/NLP NLP（自然语言处理）是实现语音识别的关键技术。科大讯飞、云知声、出门问问、灵聚科技、思必驰等企业已将其语音识别组件使用在智能硬件、智能家居、机器人、语音输入法等多个领域。小i机器人和车音网则分别从智能客服和车载语控单点切入。
- （四）行业应用层
每个行业都有其特定的业务逻辑及核心痛点，这些往往不是大数据的通用技术能够解决的。因此，在市场竞争空前激烈的今天，大数据技术在具体行业的场景化应用乃至整体改造，蕴藏着巨大的商业机会。然而受制于企业主的传统思维、行业壁垒、安全顾虑和改造成本等因素，大数据在非互联网行业的应用仍处于初期，未来将加速拓展。
1. 数据化整体解决方案
  非互联网企业的数据化转型面临着来自业务流程、成本控制及管理层面的巨大挑战，百分点、美林数据、华院数据等服务商针对金融、电信、零售、电商等数据密集型行业提供了较为完整的数据化解决方案，并将随着行业渗透的深入帮助更多的企业完成数据化转型。
2. 电子政务 政府效率的高低关系到各行各业的发展和民生福祉，电子政务系统帮助工商、财政、民政、审计、税务、园区、统计、农业等政府部门提高管理和服务效率。由于用户的特殊性，电子政务市场进入门槛高，定制性强，服务难度大。典型的服务商包括龙信数据、华三、国双、九次方等。
3. 智慧城市 智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息，从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。华三、华为、中兴、软通动力、大汉科技等公司具备强大的软硬件整合能力、丰富的市政合作经验和资源积累，是该领域的典型服务商。
4. 金融大数据技术在金融行业主要应用在征信、风控、反欺诈和量化投资领域。聚信立、量化派结合网络数据、授权数据和采购数据为诸多金融机构提供贷款者的信用评估报告；闪银奇异对个人信用进行在线评分；同盾科技倡导“跨行业联防联控”，提供反欺诈SaaS服务；91征信主打多重负债查询服务；数联铭品搭建第三方企业数据平台，提供针对企业的全息画像，为金融和征信决策做参考。通联数据和深圳祥云则专注于量化交易。
5. 影视/娱乐 中国电影的市场规模已居全球第二,电影产业的投前风控、精准营销、金融服务存在巨大的市场空间。艾曼、艺恩基于影视娱乐行业的数据和资源积累，抓取全网的娱乐相关信息，提供影视投资风控、明星价值评估、广告精准分发等服务。牧星人影视采集演员档期、性别、外形、社交关系、口碑以及剧组预算等数据，为剧组招募提供精准推荐。
6. 农业大数据在农业主要应用在农作物估产、旱情评估、农作物长势监测等领域。由于农业信息资源分散、价值密度低、实时性差，服务商需要有专业的技术背景和行业经验。典型企业包括太谷雨田、软通动力、武汉禾讯科技等。行业整体数据化程度低、进入门槛高。
7. 人才招聘 我国人才招聘行业缺乏对人才与职位的科学分析，没有严谨的数据体系和分析方法。E成招聘、北森、搜前途、哪上班基于全网数据获取候选人完整画像，通过机器学习算法帮助企业进行精准人岗匹配；内聘网基于文本分析，实现简历和职位描述的格式化和自动匹配。
8. 医疗卫生 大数据在医疗行业主要应用于基因测序、医疗档案整合和分析、医患沟通、医疗机构数据化和新药研制等环节。华大基因和解码DNA提供个人全基因组测序和易感基因检测等服务。杏树林面向医生群体推出了电子病历夹、医学文献库等APP。医渡云则致力于与领先的大型医院共建“医疗大数据”平台，提高医院效率。
——————————————————企业转型篇——————————————————

尽管技术的日益创新和逐渐完善的产业配套创造了良好的外部环境，只有将“数据驱动”的理念根植于企业本身才能充分发挥大数据的价值。对于一家企业来说，真正的数据化转型绝不仅仅是互联网营销或舆情监控这么简单，它需要战略层面的规划、管理制度的革新和执行层面的坚决。这里提出了数据化转型的8个步骤，这些建议并没有必然的时间先后或逻辑关系，藏在背后的大数据理念，或许更加重要。

改编自：《为数据而生》，周涛，2016

1. 数据全面采集：要求企业采集并存储企业生产经营中的一切数据，形成企业数据资产的理念。

2. 整理数据资源，建立数据标准形成管理：成立数据委员会，建立数据目录和数据标准，对数据进行分级分权限的管理，实现数据的统一管理和可追溯。随时了解哪位员工在什么时间点在哪一台设备上运用何种权限如何使用。

3. 建设数据管理平台：建设具备存储灾备功能的数据中心，以业务需要为引导，定做一套数据组织和管理的解决方案，硬件方面强调鲁棒性和可扩展性，没有必要一开始就投入大量经费。

4. 建立海量数据的深入分析挖掘能力：培养非结构化数据的分析处理能力和大数据下的机器学习的能力。

5. 建立外部数据的战略储备：外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大，而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据。

6. 建立数据的外部创新能力：企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台等等，获得的第一手数据，很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。

7. 推动自身数据的开放与共享：要充分借助社会的力量，尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据，并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。

8. 数据产业的战略投资布局：通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。

————————————————————结语————————————————————

在Gartner的炒作周期曲线上，“大数据”概念已从顶峰滑落到了谷底，产业似乎陷入停滞。但当我们沿着技术起源、产业生态和企业战略的脉络重新审视大数据时，我们发现，大数据产业不仅不会停滞，反而将加速渗透到更多行业的各类场景中去，并根植在企业战略、管理和文化之中。只有当各行各业的企业运营实现数据驱动时，大数据的价值才真正落地，然而这条路还很长。