阿里云的大数据平台「数加」厉害在哪里?

理由
举报 取消

阿里云发布全球首个一站式大数据平台“数加”看了直播,有一些产品觉得挺牛逼,但讲的并不是很清楚。想知道,这个平台的技术优势有哪些,对于我们数据民工有什么帮助。这个是数加的官网:首页 – 数加平台

2018年1月21日 10 条回复 1003 次浏览

发起人:韦昌明 初入职场

任何关于 Live 的问题(功能使用、推荐讲者等等)都可以联系 live@zhihu.com

回复 ( 10 )

  1. NinGoo
    理由
    举报 取消

    利益相关:阿里云离职员工,前数加团队技术负责人

    以下问答的内容大部分首发于袋鼠云公众号:

    ===================

    阿里云在云栖大会上海站的主题是DT World,这是一场规模宏大的大数据产品的发布会。发布的近20款产品, 几乎都出自阿里巴巴一个存在已久的团队:数据平台事业部,从2015年初开始变成了阿里云数据事业部。这个团队存在有多久?可以说比阿里云本身还要久。这个团队最早和DBA在一起,负责人是淘宝的第一位DBA七公,后来DBA归属运维,数据平台则在七公的带领下迅猛发展,底层的平台历经多次升级,集群规模也从最初的4个节点Oracle RAC到20个节点Oracle RAC,再从数百名到数千台Hadoop,直到目前的数万台ODPS,并且在CDO时期整合了当时集团各个BU最强的一帮大数据人才,成为了承载集团大数据梦想的数据公司。这中间的故事,几个团队的纠缠不休,几个项目的惊心动魄,估计讲个几天几夜都毫无尿点。

    还是略过历史,回到数加吧。前面说到数据平台事业部是承载集团梦想的数据公司,这个梦想是很远大的,就像某年年会的口号说的,是星辰大海。下要做好大规模计算的分布式平台,中要做好集团数据人的开发平台,上要挖掘集团数据的商业价值,三路大军浩浩荡荡,场面颇为壮观。但细看之下,却好比段誉同学通过北冥神功吸收了好几股真气,在没有融为己用之前,真气乱串导致偶尔是神功盖世,偶尔是武功尽失。

    直到2015年初,独立山头的数据平台事业部,变成阿里云旗下数据事业部,名字相差不多,但其实角色发生了很大的变化。阿里云总裁孙权同学对新的数据事业部提出了内部创业的想法,希望将过去几年主要为集团内提供服务的大数据平台能够正式全面的对外商用,并通过内部的创业工作室模拟外部客户来打磨平台。这是一个很大胆的想法,对于大部分都是技术人员的数据事业部来说,不啻于一场大革命。从15年4月份开始,数加业务团队、数加技术团队和内部几个创新工作室相继成立,并搬到了当时还没有什么人气的云栖小镇办公。我也是这个时候开始正式负责数加技术团队,有幸和一群饱经磨难的数据同学一起感受了一段内部创业的过程。

    从一开始,我就把数加定位成大数据业务平台。在数加之前,集团内部实际上已经有两个大数据的平台,一个是面向集团内部的在云端,另外一个是面向外部电商场景的御膳房。这两个平台的底层技术组件基本是一致的,2014年底的5K+项目也致力于让两者的底层完全统一,内部称之为一个Base,多套部署实例。既然已经有一个对外的实例了,那么数加做为业务平台,是基于已有的御膳房实例来构建,还是单独再部署一个实例呢?这是要做的第一个决定。从技术上来说,当然应该选择基于已有实例来做,这样可以轻装上阵。但实际情况是御膳房针对电商场景做了比较多的业务逻辑封装,有点类似于聚石塔在电商场景下对阿里云的封装。这种封装在电商场景下是合理的设计,但要面向通用的云计算和大数据场景,就有很多不尽合理的限制,甚至在最底层的租户模型上,当时也有一些设计冲突。

    所以我们做的第一件事情是重新梳理租户模型,在此基础上部署了一套新的Base实例。现在回头来看,这一年能够快速的把数加平台搭起来,能够在这次DT World上顺利发布,最初的决定是对的,省去了很多的依赖和扯皮,并且从一开始就把租户这个最核心的依赖做对了。但数加是颗尚未发芽的种子,面对已经有一颗树开始抽枝散叶的情况下,这是非常不容易的,这中间至少给两位CXO级别的老板写过邮件才得到最终的资源和授权。所以我一开始跟团队强调,现在不要提什么平台,没有足够多的客户也不要想什么平台,先踏踏实实的做好工具产品。

    2015年4月还发生了另外一件事情,我开始跑步了。没多久数加在产品方向上基本确定了要做新的计费模型、服务商模型和数据服务市场等主要的事情。老张和我讨论团队的口号的时候,我们达成了三点,就是前面数加的PD王峰说的:成全他人、莫向外求、跑马拉松。其中跑马拉松是我提出的,一方面是让团队做好持久战的心理准备,另外一方面我也给自己定下跑马拉松的目标。到数加发布为止,我一共跑完了三个半马一个全马,想想当年在学校跑1500米都要死要活的,只要有目标,没有什么不可能。

    简单的八卦故事到这里应该告一段落了。我在2015年11月从阿里云离职,和几个前同事一起创立了袋鼠云。很多人问为什么离职?数加当时虽然做得辛苦,需要从法务到财务到底层的Base/ODPS技术,到计费团队,要做一点事情都需要从最上面的业务一直贯通到最下面的技术运维,但总体上目标是清晰的,前景是光明的,数加这个小团队自身相处得也很融洽。但也正是在做数加的过程中,我看到了云的趋势、计算的趋势和数据的趋势,也坚信面向企业的云服务和大数据有一波新的机会。我已经在阿里八年多,历经淘宝DBA、手机淘宝数据产品和数据事业部数加团队,收获很多,也错过了很多。如果再多待几年,还是会有不错的收入,头顶着平台的光环也可以吹吹牛B,但可能会失去从头开始的勇气。错过这波机会,未来回头来看的时候,我想我会后悔的。当然,创业维艰,失败的概率很大,但至少我经历过的选择都从不后悔。

    那么,说了这么多,到底数加是什么鬼?当天发布的底层计算引擎有类似Hadoop/EMR的ODPS(发布会上宣布改名为MaxCompute)、有类似Storm的StreamCompute、有做实时多维计算的Analytic DB、有机器学习的PAI。计算引擎之上,有数据开发者友好的Web IDE、有业务任务的调度系统、有元数据管理等一整套操作界面。对于大部分做大数据开发的同学来说,底层的计算引擎大部分情况是不可见的,日常需要操作的主要就是这层界面,也就是首页 – 数加平台这个网站。这两层产品相互依赖,可以说是数加的平台产品。基于这个平台,不管是阿里内部,还是外部的数据开发者,都可以来做大数据的开发和应用。大会上发布的其他产品,包括移动数据分析、DataV可视化、规则引擎、推荐引擎、BI报表、应用托管、郡县图治等,虽然看起来名目繁多,实际上只是平台之上进行补充和丰富的工具、服务以及典型的大数据应用案例。阿里云的主要目标应该是做好下面两层平台,并将平台的能力更多更快更好的开放出来,这两层才是阿里云大数据的核心竞争力,上层开放则可以形成丰富的生态,未来应该有更多的第三方基于数加平台来开发和提供丰富的大数据服务和应用,这是我对这个事情的理解。

  2. 匿名用户
    理由
    举报 取消

    利益声明:在阿里云做数据方面的研究,把数加平台建起来的攻城狮之一。

    阿里云大数据平台数加发布,看到很多人关注,有同行来询问,也有不做技术的朋友关心大数据能给生活带来什么改变。作为参与者,想写写我的理解。仅代表个人。

    先说说大数据:

    大数据说了好多年,其实需要解决的核心问题,和“小数据”没有本质的区别,都是为了解决信息的缺失和不对称

    信息的不对称带来了决策的错误,导致了整个经济系统的运营低效,浪费了社会的资源。今天有了大数据的技术,和应用场景,这种不对称就会被大大的改善。

    每一个个体都可以作出一个相对优的决策,整个系统的运转,也自然就变的高效了。

    例如,我要从上海虹桥机场到浦东,而且要在三点钟之前赶到。大家如果开车,第一个动作可能是打开高德地图或者百度地图看一下,哪些地方是拥堵的,我就避开。

    这个流程我们每天都在重复。但大家仔细一想,这里有一个时间差——我出发时候看的交通状况,和到达那里时候是不一样的,没有人告诉我三十分钟后那里是不是堵的。

    但是因为我们有阿里云的平台,我们有数加背后所沉淀出来的数据体系和加工的能力,能够告诉你30分钟后的路况是怎么样的。

    这是浙江省交通运输厅最近刚刚做的一件事,他们用数加平台来预测高速路况。在浙江省1300公里的高速上面,告诉你的不是当前的路况,而是未来60分钟每一个地区未来的路况是什么样的,当前的情况你可以实时查询到,同时还可以告诉你5分钟之后、10分钟之后、60分钟之后是什么样的。

    再讲一个应用

    刚刚讲的这个应用是面向C端的信息服务,帮助咱们的司机朋友,有更好的出行。下面讲一个面向交通管理者的服务,如果真正的发生了拥堵我要怎么办?

    交通管理机构们可以用数加平台,来扫描它周边的所有的控制节点,每一个控制节点都有一个排列因子,这个因子是算法算出来的,算出来之后给你一个结果,实时的告诉你说,你应该在哪些地方,在什么时间范围内,按照多大的力度进行限流和放行,能够尽快的缓解大桥的拥堵。

    实际的运行是秒级之内产生的,因为所有的数据都在这个平台上,算法的启动,当我们接到警报,大桥严重拥堵的时候就实时起动,自动产生了这个结果。

    这个结果的落地是怎么回事,大家可以想象一下,如果上海的匝道上有信号灯,建议在某一个匝道口限行20%,就可以达到这个效果。

    所以从数据驱动的角度来讲,最后的行动点就是落实在了调红绿灯的绿信比。现在调整是凭经验的。我不是说人工经验不对,我们的方法,或者这一套理念可以让人的工作更加的轻松或者精准。

    还有订单派送的场景

    在最开始,一般的订单推送,就是暴力的方法,沿着乘客的中心,1.5公里的半径,圈所有的司机进行群发,分批的发。司机端承接了非常多的定单,那么小的屏幕上面目不暇给,而乘客也要等待很久,司机才会去抢单。最后算法可以做到精准的,圈选某些司机去推,他抢单的概率更高。这个算法就是基与数加平台上的东西,那一套数据加工、建算法的模型。

    最后专门说说数加

    用“大炮”打“蚊子”是我们团队自己聊到一个比喻。因为在数加累计的技术和平台,之前是服务于阿里巴巴内部的,有足够的场景和足够的量,所以造出来的东西都是“核武器”。有的人会说,外面实际上不需要这样的“核武器”,觉得这个东西太重了。

    “核武器”真的太重了吗?但我们刚刚说的这几个案例,都是我们阿里自己的人用阿里的平台,给大家演示用这个大炮怎么打蚊子,和打大型的飞机。

    现在讲的这几个问题都是行业非常大的痛点。同样的道理,希望大家能够从这些实践当中看到,阿里云的这个平台,或者说数加的这个平台的魅力。这不仅仅是一个简单的加工平台,当它植入到垂直行业当中去的时候,所产生的颠覆性是难以想象的,可能不久的将来你可能看到它在更多领域的实践,并且会让每一个人感受到实际的改变。

    最后我想举一个例子给大家讲一下,如果你对云平台,或者对阿里云还有迟疑的时候,十八世纪汽车刚刚出来的时候,在英国伦敦,当时居民们有非常大的抱怨,因为这个车又慢,噪音又大,而且有很大污染,还经常的跟马车抢道,后来英国的议会出了一个法律,规定这个车,就是当时最原始的汽车,行驶速度不能超过多少,有个今天看来匪夷所思的法律。

    在那个时刻,这是个非常合理的决定,因为居民都反对。但是今天大家都知道,这个决定是多么的违背历史的潮流。所以如果你对数据上云,或者对公共云这种服务模式还有迟疑的时候,我觉得这个例子可以给大家非常好的借鉴。如果不去拥抱变化,最终被颠覆的就是自己。

  3. 任志涛
    理由
    举报 取消

    今天有关注,写几句

    列几个数字:

    1、全球那个很知名的排序竞赛,在一项比赛中,阿里云的成绩是100TB数据377秒。打破了四项世界纪录。

    2、阿里云官方披露的:自建Hadoop集群的成本是数加的3倍多,国外计算厂商AWS 的EMR成本更是数加的5倍。

    3、大麦网通过采用“数加”的推荐引擎,研发成本从900人天降低到了30人天,效率提升了30倍。

    最起码,从速度、成本、开发效率上, 有很大提升。

    之前,我转发过一个墨迹天气的分享:

    阿里云的ODPS用的怎样? – 任志涛的回答

    成本降低很显,主要是EMR太尼玛贵啦!

  4. 王峰
    理由
    举报 取消

    我是数加的PD。看到同事有来回答大家的疑问,我也补充一下产品方面的东西。欢迎大家一起来关注和讨论。

    同时,作为直接参与者,也想讲讲我们是怎么做的,不敢说我们有多牛b,但我敢说我们是最用心的,诸色众相,所存者灵。

    ========先说说几个数字=========

    1. Maxcompute(就是原名ODPS)是数加底层的计算引擎。有两个维度可以看这个计算引擎的性能,1)6小时处理100PB数据,相当于1亿部高清电影。2)单集群规模过万台,并支持多集群联合计算。

    2. Analytic DB是实时多维分析引擎,可以实现百亿量级多维查询只需100毫秒。阿里内部很多面向海量互联网用户的产品的在线大数据查询,很大程度上依赖于Analytic DB。

    3. 流计算StreamCompute具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。

    =========广告结束===============

    卖了一段广告,我先说说数加怎么做的。

    做数加项目之前,我们作为集团的数据事业部,已经摸爬滚打了多年,像大家耳熟能详的ODPS、在云端、数据魔方、淘宝时光机、淘宝指数、TCIF、阿里妈妈DMP、全景洞察、以及无数个大大小小的定向、推荐、算法类服务等都是这个号称坐在金山上挖矿的筒子们干的,这个部门很屌都是牛人。

    数加绝不是从开始就做所谓的平台,而是从客户具体问题开始,必然换位思考客户的问题在哪?我们能帮助到他什么。

    开始很多用云的客户提出有大数据的支持,我们跑了很多行业的客户,累计了不少。就拿医疗行业来讲,从原来的HIS、电子病历、化验单识别切入时碰得头破血流,到逐渐找到远程诊疗在模式识别、算法分析、调度上的痛点,并从最需要的底层社区医院进行公益推行。

    中间过程需要很多的努力,但客户给了我们信心,他们说会感觉到我们的专业与诚意,他们甚至愿意以我们为中介,为其他客户提供数据服务。

    当下的大数据业务,我个人感觉知道做什么比有数据更重要。前者意味着至少了解某些行业下数据的应用价值,后者只是单纯的有数据而已。

    我们的数据工程师、算法工程师会冲到客户的门口,冲到客户现场,买行业书籍、去接触之前压根不懂的硬件设备、去看客户看起来很接地气的官网去找业务痛点的蛛丝马迹,有的放矢,不YY,只为说人话,说客户懂的话,谨慎拿出我们的解决方案。

    做大数据最动人的风景,是看到自己的方案被客户认可,因为这个领域,没有专家,有的只是行者。

    凡所有相,皆为虚妄。

    就这么一点一点,我们沉淀了除了一些核心通用的产品,如规则引擎(从营销、安全场景沉淀)、推荐引擎(精准化运营沉淀)、智能语音交互(智能客服解决方案沉淀)、整合分析(客户洞察解决方案)、DataV(可视化大屏解决方案)…再往下走,为了让数据在各引擎间流动,我们又向下沉淀标签管理、标签数据同步、数据采集如MAN等底层组件…

    ==============废话太多,接着说说产品本身============

    做平台就是搭台子,串,从客户视角来看要达到的目的如下:

    1. 体验上:是一站式的。

    2. 功能上:产品之间打通。

    所以,对数据从业者的帮助主要体现在:

    1.
    工具提供的功能,极大降低数据相关工作如建仓、ETL、BI、建模、应用开发等的工作量。

    2.
    工具与引擎的结合,以及数据工作端到端产品线配置上的完备性。

    总而言之就是方便。

    ===============挑几个典型产品==============

    数加平台一共发布了20个产品。平台上公测与发布的多款产品,技术优势可以直接看看官网写的很明白,我挑几个典型给大家说说,希望能说明白。

    – 数据可视化DataV:

    作为大屏可视化业务,要点有三:

    1. 如何讲出故事(设计,最最最重要的一点)

    2. 前端、大屏、交互控制(实现)

    3. 数据设计(数据)

    不用 DataV

    1. 设计

    – 产品与业务狗自己想用哪些图标,怎么布局,吹出什么故事,厘清脉络,画手稿、画原型,设计交互的逻辑,选配客户的数据,需要做到能在简单的一页之内让人读懂数据之间的层次与关联,这就关系到色彩、布局、图表的综合运用。

    2. 实现

    – 开发人员不但会前端,还得懂审美进行特效开发,还得对非传统图标的组件进行分析展现开发对应的新组件,比如海量数据的地理轨迹、地理飞线、热力分布、地域区块、3D地图、3D地球,地理数据的多层叠加,还得学习大屏技术,对接中控,拼接渲染集群。

    3. 数据

    – 再好的设计,没后面的数据引擎也跑不动,需要进行数据管理,做数据同步,对接不同的数据源,还得支持动态请求,实时计算、流计算等。

    DataV

    1.
    设计

    直接用DataV提供的模板,或者从获取灵感。

    比如:

    2.
    实现

    多种图表支持,常规图表以及地理、地球、热力分布、多层叠加的支持。大屏技术支持多分辨率适配与发布方式。

    3.
    数据

    多种数据源计接入:支持API、CSV、RDS、阿里云分析型数据库,支持动态请求。

    此外,图形化的搭建工具,用户只需要配配就行

    – 再看一款产品叫规则引擎:

    规则引擎的核心是将复杂易变的业务逻辑从应用代码中剥离出来,使业务规则的定义和运行隔离开来,这样当业务需求改变时,只需要更改规则定义,而不需要修改代码,以及重新编译、部署整个项目,提高了应用的扩展性和可维护性。

    我们的规则引擎特点:

    1. 场景化一站式服务:轻量,降低接入成本

    如:移动场景下,APP可快速集成SDK实现数据采集、上报、预定义用户profile,配备图形化用户分层工具实现定向营销,精准运营流量、提升用户粘性。

    2. 实时

    a) 支持实时数据(实时事件、行为、LBS等)计算(整型、字符串、枚举、多值、范围、时间)

    b) 规则配置实时生效

    c) 实时规则计算、规则匹配

    3. 特征支持

    a) 规则描述语言支持SQL、UDF、ODPS表

    b) 支持规则匹配自定义排序

    c) 数据类型支持整型、字符串、枚举、多值列、范围、时间。

    4. 大规模、高并发、低延迟

    a) 支持十万以上规则量、亿级别数据量

    b) QPS高达10万

    c) 毫秒级延迟

    5. 系统及业务安全:多副本容灾、业务数据及规则隔离

    架构如下:

    适用场景:

    当然,相对业界成熟的老一辈规则引擎,我们还有很多路要走。

    ===========最后,如果还有人看到这里的话==============

    大数据问题本身是个系统性问题,不是靠某一单点的技术突破就能带来业务价值的转化,这里面必然存在一个GAP,即对业务本质的把握、以及问题的上下游、前后链路等方面的深入理解。

    数加团队有个内部信条:成全他人、莫向外求、跑马拉松。我们坚信,你好我也好。我们坚信,有问题,先问己。我们更坚信跑跑更健康。

    今天数加的发布只是一个小小的里程碑,工欲善其事必先利其器,一切才刚刚开始。而如何用好工具、配好数据,为业务进行定制设计的解决方案,才是大数据的核心。

  5. 昆吾
    理由
    举报 取消

    谈谈我的看法。

    对社会的作用。暂且不谈它收费标准的问题,先说它的意义。在现在中国互联网界,无论大家是否愿意,阿里巴巴已经成为了某些领域的技术旗帜,特别是云计算大数据领域。在阿里云稳定运作的情况下,推出数加这样的大数据服务,无疑让国内很多相关企业有了更明确的思考方向和技术参考,知道,原来大数据是可以这样,我觉得这对国内的相关领域的技术推动作用是巨大的:不会做,没足够的技术实力,没足够的行业积累,又想自己弄,那你先抄啊,抄着抄着,又不是傻抄,总归会根据自己的实际情况做一些针对性的改变的,也许就有了不起的发现呢。

    再者,很多所谓的媒体和评论员连云计算和大数据是不是一回事都没彻底弄明白就天天在那炒作在那吹,搞得普通非技术领域的人云里雾里,然后趁机获利。数加的推出,这叫大数据落地,叫实践。它告诉你,用大数据的确对你的业务有帮助,然后告诉你你只需要这样这样操作,step by step,达到我告诉你的效果,而不再是西装领带所谓大数据专家唾沫横飞跟你吹几个月,拿完咨询费拍屁股走人实际屁事没干。

    至于收费,东西做出来本来就是赚钱的,阿里云不是政府机构没有能力强制用户用或者不用,如果觉得不合理,那么可以选择自己喜欢的其他服务商;如果发现没的选,那恭喜你你发现一个好的创业点了,祝你成功,有空瞎炮轰不如去考虑实践吧。

    综上,要问厉害在哪?我们不谈技术,就一个理由足以证明:你们不是要大数据么,喏,这就是大数据,看得见摸得着的…这就是数加做的事情。

  6. 王子凌
    理由
    举报 取消

    以前大家都是谈论大数据,实际上有大数据的企业不多,当然,大家能使得上的工具也不多。

    那现在阿里云实际上是把之前在阿里巴巴集团内部用的一些产品给开放出来。

    从这个角度来看,应该成熟度是非常高的。跟单纯做产品的公司相比,阿里胜出在于自己有场景,有需求。(这是很难的)

  7. 李淼
    理由
    举报 取消

    利益相关:MaxCompute(原名ODPS)产品经理

    很少在知乎上回答问题,特别是这种“敏感”问题,如果有纰漏,还请大家指正。

    因为有看到部分同学对“AWS比MaxCompute高5倍的成本”这句话有疑义,我上来解释下。

    首先,MaxCompute是和AWS下的EMR做对标的。

    其次,我们说的成本是指什么?用户在采购云计算服务的时候要考虑两个因素:售价和计算效率。如果MaxCompute的价格是EMR的2倍,但效率是EMR的10倍,在我们看来,从用户角度看,EMR的成本依然是MaxCompute的5倍。

    从价格上看,那位匿名同学说的有一定道理,但不全对。我猜你没有真正算过两个产品的价格。“最低1500元每月起,而且流氓的只有包月和包年,尼玛谁家的大数据批量任务需要7*24小时跑,不跑的时候还收钱,然后跟人家能按小时收费的去pk”。这句话有一定道理,是因为odps最低1500元的门槛比较高,是事实。因为这种计费方式本身就是针对大用户的,因此设了这样的使用门槛。但我们没有强奸或者排斥用户的意思,因为阿里云官网上MaxCompute(原名ODPS)有按量后付费的收费方式,阿里云官网上的是没有收费门槛的。我们建议用户先在阿里云官网上采购MaxCompute,而后在数加上使用MaxCompute。阿里云论坛上有相关的使用介绍,大家可以找找看。这两种使用方式后续会全部统一到数加平台上来,不会给用户割裂的感觉。

    但上面这句话也不全对,因为你没完整的将亚马逊的售卖方式描述清楚。亚马逊分按需付费和预留实例付费。按需实例的单价高,没折扣。预留实例单价低,有折扣,但要预交前,且至少要预付1年的费用或者1年费用的一部分(这句话好绕,大家听听就好了)。MaxCompute的售卖方式与EMR的按需付费和预留实例付费都不太一样,因此很难严格对标。如果按照那位同学的说法,EMR的按需付费是没有使用门槛的。可ODPS也有按需后付费的方式。如果说,MaxCompute 1500元的底线是强奸用户一个月,那么EMR的1年或3年预留实例就是强奸用户好多年了。其实这个说法是不对的,给大用户,忠实用户让利,这是再正常不过的商业逻辑了。EMR没做错,MaxCompute也没做错。

    从价格对比上既然没有严格的对比方式,那就只能将MaxCompute的售卖分别与AWS的按需售卖和预留实例作对比。

    如果是按需售卖,MaxCompute的价格大约是EMR的30%~40%,即AWS卖10元,MaxCompute卖3~4元。

    如果是预留实例1年(我们没考虑3年,因为在目前的云计算市场上很少有3年的订单),亚马逊的价格大约会下降到6~7元。

    好,以上是售价分析。在正常价格下,EMR价格是MaxCompute的3倍左右。在预留实例1年情况下,EMR价格是MaxCompute的2倍。

    那么,5倍是怎么算出来的?是因为还要考虑效率。我们拿EMR和MaxCompute做过性能对比,MaxCompute大约是EMR的2.5倍。别问我这个数字是怎么算出来的。。。。大家也可以试试,哈哈。我猜又会有很多人挑战我这个2.5倍是什么鬼。。。

    综合以上两方面考虑,我们才会说出5倍这个数字。是不是5倍这个问题,我想大家也不要太纠结,如果有人觉得这个数字偏高,那他一定有办法推翻。我啰嗦这么多是想告诉大家,我们是以一个严谨的态度核算用户成本,给用户承诺的。

    如果大家不相信,可以看阿里云的ODPS用的怎样? – 大数据 这个问题中活生生的应用案例。这个里面说墨迹成本下降到30%。这还是在MaxCompute(ODPS)降价之前,他们就是使用的MaxCompute官网按需后付费的方式。

    就先这样了,谢谢大家。

  8. 彭河森
    理由
    举报 取消

    这是我看到过的阿里人答题密度最高的知乎问题了,可见公关重视程度非常高哈。数加有什么厉害的?用我一个同事自嘲的话说叫做独门武功练成仙了。

    当然楼上为了定价争论,亚马逊也有自己流式计算基础叫做AWS Kinesis,对应开源的Kafka;EMR具有了流式处理能力,对应Hadoop/MapReduce,最后储存层面是S3。处理完的数据放到S3上是按照存量收费的,不用另开EMR机器进行储存,所以价格怎么算这个问题可以值得商榷的。

    1) 为什么说是独门武功?因为以上说的大数据仓储、流式计算、实时SQL等功能在开放源代码社区也已经实现了。比如现有的YARN构架(如下图),已经可以在HDFS的基础上实现以上所说所有功能。

    在大数据圈子混的人肯定都听说过了阿里巴巴的ODPS,当然据说有Storm的成分在里面。阿里自己主导开发了这么一套系统,开始都不被人看好,竟然没有被撤掉完全上开源,而是继续进步,后来竟然孵化成了数加,不能不让人佩服领导层的坚持和决心。

    2) 为啥练就了独门武功?这大概要从Hadoop平台的创世说起。阿里巴巴可能是最先遇到Hadoop平台性能瓶颈的少数几个公司之一。如下图,在Hadoop1.0时代,Pig/Hive等应用和HDFS的数据是高度耦合的,所以很难得跨越性能的瓶颈。而在Hadoop 2.0时代,HDFS资源层和应用层通过YARN完全分离开来,给了应用层更大的自由度。

    只是阿里太早遇见了这个瓶颈,在开源社区解决这个问题之前,就已经练就了独门武功把这个问题解决了,或者另一说是阿里对开源的贡献促进了Hadoop 2.0架构的诞生。

    3) 独门武功何处去?其实现在国内云计算用户里面,对上面这种员为了做手脚,避开票据在本行入库,提出携一名会计人员上门取票,年轻会计人员受到利诱或工作疏忽被利用,其封包带回一包报纸。所以并不是真票入库再被替换,而是回库之前就被调包了,因真票一旦入库高度整合的服务有需求的公司不会超过50家,本屌丝目测其中一大半都是广告相关业务,都具有了自己自有的数据分析和建模能力。所以到底有多少公司能把上面这么全套的业务全部都用了?如果有这样需求的公司,会不会和阿里有直接业务利益冲突?会不会担心阿里靠数据绑架了自己的业务?肯定大家都会有疑虑哈。

    当然,PaaS拼的是销售,而不是技术,就看阿里的销售有多牛逼了

  9. 桑文锋
    理由
    举报 取消

    在国内这几家公有云的,阿里云应该是规模最大商业化做的最好的。希望阿里云不要又做裁判又做运动员,还是要做好生态建设。像我们Sensors Data依赖于各个公有云服务,还是希望和基础平台一起成长的。

    我们针对互联网创业公司推出的Sensors Analytics,主要解决创业公司的用户行为分析问题,如多维事件分析,漏斗转化,留存分析等。我们为客户提供私有化部署,不拥有用户的任何数据,解决客户的安全顾虑。有兴趣的可以到申请体验。

  10. 匿名用户
    理由
    举报 取消

    阿里这个官方纰漏的太邪乎,aws比它高5倍的成本的数据怎么来的?用数加就要关联阿里的odps,最低1500元每月起,而且流氓的只有包月和包年,尼玛谁家的大数据批量任务需要7*24小时跑,不跑的时候还收钱,然后跟人家能按小时收费的去pk,太流氓了吧?

我来回答

Captcha 点击图片更换验证码