用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
工作经验:千金难买早知道,万金不换早开…
谢邀!
我也参加了云栖大会!在知乎也回答了好多相关的问题,说实话,你考虑的这种情况应该是相反的,需求只会更加旺盛!你又见过一个发展越来越好的行业人才需求越来越少吗?
相反,需求只会越来越增加!
为什么?
第一,这次发布会某种程度上是对行业又打了一剂鸡血,某种程度上会刺激或带动一部分人参与到大数据这个领域来,从而刺激需求。
第二,大数据炒了那么多年,其实就这两年还是出现一些落地的公司,一个新起步而且代表未来一段时间技术方向的东西,需求只会越来越旺盛。过去很多公司没有数据分析师这个岗位,现在几乎大一点的互联网公司都再招这个岗位的人才。
第三,资本在这个领域迅速布局,上周就有数起相关的投融资案例,资本的到来,某种程度上也推动这个行业的发。
第四,新闻这东西,基本上水分很大,一笑置之便是。
纯手打,有关注大数据的欢迎加我们微信:idacker
数据挖掘的主要工作是处理数据和特征工程。这是需要大量业务背景知识的……
阿里云能帮着把这一切搞定?
不要被新闻稿所迷惑
不知从何时起坊间流传着一个小道消息,海外有一座小岛,上面都是金子,只要去那里随便挖俩镐都能刨出供人一辈子逍遥的财富。
消息越传越悬,到后来甚至演变成只要到了那里就能立地成仙长生不老,坊间不明真相的群众以谈论这个传说为乐,每个人梦里都在YY假如哥到了那里就能如何如何。无奈大海苍茫宝岛难觅,且路途之上困难重重充满了艰难险阻,只有少数几个顶尖的武林高手有这个实力到达那里,而这里面又只有极少数运气好得要死的高手能被一些豪门大族所青睐,给钱给物资给大船让他们帮忙寻宝。
久而久之,平常老百姓,甚至一些武艺并不如何高强的江湖人士,一些家财并不多到能够任意砸到一个虚无缥缈事情上的大户都打起了退堂鼓,觉得传说毕竟是传说看不见也摸不着,于是乎那些专门为了寻宝而苦练武艺的二流以下高手们自然没有出路,只能改头换面另投他行。
此时,一个江湖地位超然的大门派里一位眼光独到的军师发现,想要去那宝岛上寻宝也无非为了钱财二字,而通过贩卖海船和宝岛地图说不定赚得更多。于是这个大门派仗着自己家底雄厚先让江湖上一群顶尖高手探明小岛方位,然后再造大船若干,遍洒地图于市井,接送想要去岛上江湖人士,并沿途让自己麾下的顶尖高手保驾护航。
如此一来,曾经武艺并不十分顶尖的江湖人士都能踏上寻宝之旅,有关小岛的消息再次在坊间传颂,而一些原本没有资本的小门小户也渐渐能雇得起一些非顶尖的江湖人士从事探宝工作,江湖上一片欣欣向荣,而那个大门派赚得钵满盆盈。
然而真的当大量江湖人士到达小岛后才发现,黄金是真的有,但并没有传说中那么夸张,更别提立地成仙的事情。而往往那些黄金分布密集的区域,早已被早先到达的各大门派插旗占领,后来者只能跟着喝点汤罢了……
本来我不想评价的,看到 @detkh的答案,我表示我有很多话要说。
大数据目前按国内这个企业的情况来看,也像你说的稍微大点的公司召点人搞搞,小公司哪里搞得起。。 他们真没多少数据。也没那么多节点去折腾。实事求是。
大数据现状
目前大数据的技术对传统报表的支持实在是太乏力,当然我没说不能做,大数据工具不能原生支持和分析传统数据库中的ROW DATA这是个致命的问题,要么导出成大批量格式文件,而且还要麻烦的写很多代码去支持有限的功能,在健壮性,容错和数据的准确度在TEAM WORK时都可能造成很大问题。而且开发周期慢。文档少,BUG多。对实时数据的分析还欠佳。有钱的公司不在乎成本弄数据,没钱的公司没数据可弄。包括国内大数据很多公司都在炒作,说难听点大数据没有什么神秘的。就是脱离传统数据库用编程的方式来进行分布式数据分析,嵌套写好的算法进行数据清洗和预测,多节点合并结果,这种技术稍微大一点的国外公司自己早有解决方案,比如微软的COSMOS,谷歌的一堆分布式工具。业内对大数据的判定方法参差不齐,加上各种数据解决方案杂交在一起。稍微好点的解决方案根本也解决不了堆积成山的问题。在非常多的场景下公司还是要依赖传统数据库的统计手段。而且在大数据分析师眼里非常LOW的EXCEL目前还是主流的数据分析工具。 哎!!
大数据的未来
在大数据没出来以前,传统公司的常规报表和分析工具一样适用于公司业务的发展。而大数据是为互联网数据爆炸增长的公司准备的工具,所以不会在业内有非常高的普遍性。因为不会是所有公司都爆炸增长数据的。而稍大点的互联网公司,比如某东,某讯这种规模的公司打死也不会把数据放别人家的云的。所以别忘了,没有哪家公司,特别是大公司敢把自己的核心数据放云上跑的,小公司做大了也会撤出云, 什么保险,银行,证券产业谁都不敢把数据往云上堆,从安全性角度考虑和结合国内法度体质的不完善,我相信决策人员也不敢冒那么大风险。
安全性
记得早年阿里被爆出的对的SQL预测注入么阿里云的云盾定期对云主机监听端口做SQL注入攻击,这是业界的通常做法吗,有何风险? – SQL 注入
以下是我个人的推测
无良供应商把你的BOX备份拿去还原,你从你的云本机根本看不出,然后在毫不知情的情况下,数据就侧漏了,啊不好意思,是泄露。。不要谈保密性可言在这个社会,我个人对于国内的这种保密性,只能参考下我刚买房就收到各种骚扰装修电话,我刚办银行卡存钱,就被打电话问要不要保险的。我觉得数据一旦上传,基本就没有保密性可言。所以云解决方案提供商你必须要找那种信誉特别特别好的公司,阿里的信誉好不好,大家自己有自己的判断我就不多说了。
建议
核心业务和核心数据还是自己分析比较好。什么大量日志,垃圾数据,序列化的很好的数据你可以尝试用大数据手段去解决,对视频内容,图片信息这种目前主流数据库还很乏力的地方,多使用大数据工具会有很快的收益。
事实上传统公司或者没那么多数据(PB级)的公司还在使用传统多维数据集,或者直接SQL报表。其实也能做不是么?
打完,睡觉。
这个机器学习平台叫御膳房
左边栏就是可拖曳的组件,右边就是我建立的一个实验,算法用的是陈天奇大神的XGBOOST。阿里无非就是将算法封装成一个个可视化的小组件,只保留一个输入和一个输出(看图中XGBOOST上下都有一个小圆点,上面那个是输入的数据流,用于训练模型;下面那个是输出的模型流,用于预测新数据)。这些可视化的算法组件,的确方便了不少,起码看起来可爱多了。但对于一个搞数据挖掘的工程师来说,提供一个可拖曳的组件,跟提供一个可调用的API,差别仅仅是两三行代码。
以前我认为参加一个比赛可以提高我的算法能力,但后来发现错了,没什么卵用!比赛比的不是你的算法有多牛逼,而是你对数据的预处理、你对具体业务的了解、你的特征工程,都是脏活累活,这些阿里要是能提供可拖曳的组件,那比赛就没什么可做的了。看看截图中框出来的“训练数据”部分,得到那两张表花的时间是最多的,这才是比赛的核心部分。同样地,数据挖掘相关工作人员,花的大部分时间想必也是在这些脏活累活上。哪一天机器能够代替人做这些事了,需求量才会真正地减小吧。
云应该有所影响
确实提供低成本的BI ML平台
BI海外是tableau qlik
ML海外是featurelab 国内目前没有
这些多是自动分析 自动的BI ML
当然不能取代人工 目前
但是提供了低成本的客观工业标准
你人工贵 分析结果创造的价值总要好过这些自动平台吧
目前只学了知识但是没能力的南郭先生们会战栗
当然南郭先生们也可能象跑不过etf的那些基金经理乱忽悠 但那是欺骗不是科学
毫无关联,数据都不见得大,要会洗,会用吧!
数据越来越多,而大数据挖掘的门槛又高高在上;如何将化解这个矛盾呢?于是乎阿里巴巴推出了这款牛逼的数据挖掘产品(国内也只有阿里有这个能力了),目的就是降低数据挖掘的门槛,提高数据挖掘的效率;这样就有更多数据挖掘工作者,而不是减少数据挖掘的工作者。
顺便说一句,数据挖掘平台是DTPAI,而不是御膳房;御膳房只是作为DTPAI平台的应用场景,在数加等数据平台中也有DTPAI的身影;DTPAI是阿里云的独立产品,在不久以后,普通的阿里云用户就可以使用DTPAI了
平台只是工具,最终还是需要用工具的人阿
昵称*
E-Mail*
回复内容*
回复 ( 10 )
谢邀!
我也参加了云栖大会!在知乎也回答了好多相关的问题,说实话,你考虑的这种情况应该是相反的,需求只会更加旺盛!你又见过一个发展越来越好的行业人才需求越来越少吗?
相反,需求只会越来越增加!
为什么?
第一,这次发布会某种程度上是对行业又打了一剂鸡血,某种程度上会刺激或带动一部分人参与到大数据这个领域来,从而刺激需求。
第二,大数据炒了那么多年,其实就这两年还是出现一些落地的公司,一个新起步而且代表未来一段时间技术方向的东西,需求只会越来越旺盛。过去很多公司没有数据分析师这个岗位,现在几乎大一点的互联网公司都再招这个岗位的人才。
第三,资本在这个领域迅速布局,上周就有数起相关的投融资案例,资本的到来,某种程度上也推动这个行业的发。
第四,新闻这东西,基本上水分很大,一笑置之便是。
纯手打,有关注大数据的欢迎加我们微信:idacker
数据挖掘的主要工作是处理数据和特征工程。这是需要大量业务背景知识的……
阿里云能帮着把这一切搞定?
不要被新闻稿所迷惑
不知从何时起坊间流传着一个小道消息,海外有一座小岛,上面都是金子,只要去那里随便挖俩镐都能刨出供人一辈子逍遥的财富。
消息越传越悬,到后来甚至演变成只要到了那里就能立地成仙长生不老,坊间不明真相的群众以谈论这个传说为乐,每个人梦里都在YY假如哥到了那里就能如何如何。无奈大海苍茫宝岛难觅,且路途之上困难重重充满了艰难险阻,只有少数几个顶尖的武林高手有这个实力到达那里,而这里面又只有极少数运气好得要死的高手能被一些豪门大族所青睐,给钱给物资给大船让他们帮忙寻宝。
久而久之,平常老百姓,甚至一些武艺并不如何高强的江湖人士,一些家财并不多到能够任意砸到一个虚无缥缈事情上的大户都打起了退堂鼓,觉得传说毕竟是传说看不见也摸不着,于是乎那些专门为了寻宝而苦练武艺的二流以下高手们自然没有出路,只能改头换面另投他行。
此时,一个江湖地位超然的大门派里一位眼光独到的军师发现,想要去那宝岛上寻宝也无非为了钱财二字,而通过贩卖海船和宝岛地图说不定赚得更多。于是这个大门派仗着自己家底雄厚先让江湖上一群顶尖高手探明小岛方位,然后再造大船若干,遍洒地图于市井,接送想要去岛上江湖人士,并沿途让自己麾下的顶尖高手保驾护航。
如此一来,曾经武艺并不十分顶尖的江湖人士都能踏上寻宝之旅,有关小岛的消息再次在坊间传颂,而一些原本没有资本的小门小户也渐渐能雇得起一些非顶尖的江湖人士从事探宝工作,江湖上一片欣欣向荣,而那个大门派赚得钵满盆盈。
然而真的当大量江湖人士到达小岛后才发现,黄金是真的有,但并没有传说中那么夸张,更别提立地成仙的事情。而往往那些黄金分布密集的区域,早已被早先到达的各大门派插旗占领,后来者只能跟着喝点汤罢了……
本来我不想评价的,看到 @detkh的答案,我表示我有很多话要说。
大数据目前按国内这个企业的情况来看,也像你说的稍微大点的公司召点人搞搞,小公司哪里搞得起。。 他们真没多少数据。也没那么多节点去折腾。实事求是。
大数据现状
目前大数据的技术对传统报表的支持实在是太乏力,当然我没说不能做,大数据工具不能原生支持和分析传统数据库中的ROW DATA这是个致命的问题,要么导出成大批量格式文件,而且还要麻烦的写很多代码去支持有限的功能,在健壮性,容错和数据的准确度在TEAM WORK时都可能造成很大问题。而且开发周期慢。文档少,BUG多。对实时数据的分析还欠佳。有钱的公司不在乎成本弄数据,没钱的公司没数据可弄。包括国内大数据很多公司都在炒作,说难听点大数据没有什么神秘的。就是脱离传统数据库用编程的方式来进行分布式数据分析,嵌套写好的算法进行数据清洗和预测,多节点合并结果,这种技术稍微大一点的国外公司自己早有解决方案,比如微软的COSMOS,谷歌的一堆分布式工具。业内对大数据的判定方法参差不齐,加上各种数据解决方案杂交在一起。稍微好点的解决方案根本也解决不了堆积成山的问题。在非常多的场景下公司还是要依赖传统数据库的统计手段。而且在大数据分析师眼里非常LOW的EXCEL目前还是主流的数据分析工具。 哎!!
大数据的未来
在大数据没出来以前,传统公司的常规报表和分析工具一样适用于公司业务的发展。而大数据是为互联网数据爆炸增长的公司准备的工具,所以不会在业内有非常高的普遍性。因为不会是所有公司都爆炸增长数据的。而稍大点的互联网公司,比如某东,某讯这种规模的公司打死也不会把数据放别人家的云的。所以别忘了,没有哪家公司,特别是大公司敢把自己的核心数据放云上跑的,小公司做大了也会撤出云, 什么保险,银行,证券产业谁都不敢把数据往云上堆,从安全性角度考虑和结合国内法度体质的不完善,我相信决策人员也不敢冒那么大风险。
安全性
记得早年阿里被爆出的对的SQL预测注入么阿里云的云盾定期对云主机监听端口做SQL注入攻击,这是业界的通常做法吗,有何风险? – SQL 注入
以下是我个人的推测
无良供应商把你的BOX备份拿去还原,你从你的云本机根本看不出,然后在毫不知情的情况下,数据就侧漏了,啊不好意思,是泄露。。不要谈保密性可言在这个社会,我个人对于国内的这种保密性,只能参考下我刚买房就收到各种骚扰装修电话,我刚办银行卡存钱,就被打电话问要不要保险的。我觉得数据一旦上传,基本就没有保密性可言。所以云解决方案提供商你必须要找那种信誉特别特别好的公司,阿里的信誉好不好,大家自己有自己的判断我就不多说了。
建议
核心业务和核心数据还是自己分析比较好。什么大量日志,垃圾数据,序列化的很好的数据你可以尝试用大数据手段去解决,对视频内容,图片信息这种目前主流数据库还很乏力的地方,多使用大数据工具会有很快的收益。
事实上传统公司或者没那么多数据(PB级)的公司还在使用传统多维数据集,或者直接SQL报表。其实也能做不是么?
打完,睡觉。
这个机器学习平台叫御膳房
左边栏就是可拖曳的组件,右边就是我建立的一个实验,算法用的是陈天奇大神的XGBOOST。阿里无非就是将算法封装成一个个可视化的小组件,只保留一个输入和一个输出(看图中XGBOOST上下都有一个小圆点,上面那个是输入的数据流,用于训练模型;下面那个是输出的模型流,用于预测新数据)。这些可视化的算法组件,的确方便了不少,起码看起来可爱多了。但对于一个搞数据挖掘的工程师来说,提供一个可拖曳的组件,跟提供一个可调用的API,差别仅仅是两三行代码。
以前我认为参加一个比赛可以提高我的算法能力,但后来发现错了,没什么卵用!比赛比的不是你的算法有多牛逼,而是你对数据的预处理、你对具体业务的了解、你的特征工程,都是脏活累活,这些阿里要是能提供可拖曳的组件,那比赛就没什么可做的了。看看截图中框出来的“训练数据”部分,得到那两张表花的时间是最多的,这才是比赛的核心部分。同样地,数据挖掘相关工作人员,花的大部分时间想必也是在这些脏活累活上。哪一天机器能够代替人做这些事了,需求量才会真正地减小吧。
云应该有所影响
确实提供低成本的BI ML平台
BI海外是tableau qlik
ML海外是featurelab 国内目前没有
这些多是自动分析 自动的BI ML
当然不能取代人工 目前
但是提供了低成本的客观工业标准
你人工贵 分析结果创造的价值总要好过这些自动平台吧
目前只学了知识但是没能力的南郭先生们会战栗
当然南郭先生们也可能象跑不过etf的那些基金经理乱忽悠 但那是欺骗不是科学
毫无关联,数据都不见得大,要会洗,会用吧!
数据越来越多,而大数据挖掘的门槛又高高在上;如何将化解这个矛盾呢?于是乎阿里巴巴推出了这款牛逼的数据挖掘产品(国内也只有阿里有这个能力了),目的就是降低数据挖掘的门槛,提高数据挖掘的效率;这样就有更多数据挖掘工作者,而不是减少数据挖掘的工作者。
顺便说一句,数据挖掘平台是DTPAI,而不是御膳房;御膳房只是作为DTPAI平台的应用场景,在数加等数据平台中也有DTPAI的身影;DTPAI是阿里云的独立产品,在不久以后,普通的阿里云用户就可以使用DTPAI了
平台只是工具,最终还是需要用工具的人阿