发起人:Robot 管理大师

回复 ( 5 )

  1. 数据哥
    理由
    举报 取消

    一张图片解答你的这个问题,如果你真对大数据感兴趣,可以关注下我们的微信号:数据客 id:idacker 还是能够学到一些东西的哦!

  2. 延云云计算
    理由
    举报 取消

    从09年开始,放弃掉之前做的前端的工作,依然从事大数据相关的行业,对大数据工具还有一些了解。说说我工作的的这些年使用的一些大数据工具吧。当然不一定完全正确,还请您批评指正。

    大数据如今已经不再是什么新的名词,五中全会大数据上升为国家战略,BAT巨头早已布局多年,大数据时代已经真正来临,但我们真的准备好了么?

    大家都知道大数据中蕴含大量的数据价值,比如说淘宝与天猫的用户消费行为、滴滴打车可以知道用户每天去了哪里、用户在优酷上都看了那些视频、移动运营商的 海量客户终端信息以及上网行为等、大型零售商每天的销售数据,订餐网上用户每天吃了什么,等等大数据金矿无处不在。但淘出来的才是金子,否则只是一堆土而 已,即占用场地,还要花钱去保管和维护这堆土。

    大数据时代金矿已经有了,如何利用好这个金矿,某种意义上取决于我们手上的工具。熟话说“没有那金刚钻,就别揽瓷器活”,工具是否适用,直接决定着我们能否进行挖金,以及挖金的速度与效率。适合用铁锹还是挖掘机,对挖金来说有着质的不同。

    第一个金刚钻Hadoop

    Hadoop是大数据时代的第一个金刚钻。笔者从08年开始研究hadoop源码,当时中文资料还是比较少的,国内除了BAT外其他公司用的也很少,初次 接触hadoop是因为被当时公司的流量系统所困扰,当时公司网站的流量已经达到了每天接近一个亿的水平,最初选择了postgresql来计算数据,但 是普通机器根本无法计算,无奈之下我们花大价钱买了128G内存(在当时是很奢侈的)的服务器,运行在postgresql的内存表里才勉勉强强的计算出 来。直到有一天遇到了hadoop,你懂的,一个HiveSql在几台普通硬件的机器上,一亿数据几个小时就出结果了。

    如今Hadoop已经不再神秘,相关书籍越来越多。但是伴随着互联网技术的日新月异,Hadoop已经不能满足用户了。数据时效性差,以及查询的响应效率 低,那些对时效性要求较高的用户场景无法满足。Hadoo目前面临两两方面的挑战,第一,数据从产生到能够最终出结果要等待数小时,时效性较差。第二,多 个Job任务,相互之间争抢资源,而且由于采用暴力扫描原始数据的方式,对机器资源的消耗太大,每天能够跑的计算任务个数十分有限。

    第二个利器阿里JStorm

    JStorm的出现主要是因为Hadoop满足不了支付宝成交实时分析的需求。阿里的双十一活动以及其他活动都有对阿里网站成交流量实时展示的需求,通过 运营活动,来了解开始的几分钟或者几秒钟内,实时流入了多少的流量,带来多大的成交。正巧当时Apache Storm正式开源,阿里团队认为Storm正适合阿里的业务,但是Storm的核心逻辑采用Clojure编写,熟悉这门语言的太少,另外业务需要定制 化的逻辑,故阿里团队花费3个多月的时间阅读Storm的源码,并将其Clojure部分更换为Java代码。笔者曾是团队的一员,有幸成为其 committer,离开阿里后,团队其他兄弟将其开源,贡献了出去,如今Jstorm已经被Apache接受,正式成为Storm项目的子项目。

    Storm能够满足企业对数据时效性的要求,但跟现有的其他大数据的实时系统一样,都是采用预计算的方式。因流式系统不保存原始日志,数据只能安装固定的 维度和粒度进行计算与汇总,例如只能按照淘宝的类目、分钟等维度汇总统计。众所周知,运营情况是千遍万化的,很多都是突发事件,维度并不能预先固定,很多 事物也需要多方面展示,要经过数次的不同角度、不同粒度的钻取,来发现运营活动的规律。基于这种场景,我们需要保留原始日志,同时需要非常快速的对这些原 始日志进行快分析与计算。这样高需求的场景,数据工具既要有hadoop+hive计算的灵活性,又要有Jstorm的时效性和速度。Storm就显出了 它的不足。

    新生代数据挖掘机延云YDB

    YDB是延云针对用户对大数据检索快速、实时、多维度的需求而开发的分析软件,可以说是笔者的心头好。

    YDB将传统数据库索引技术应用在大数据技术上,打破目前大数据计算技术的僵局。将大数据检索向时效性更强,查询方式更 灵活,执行效率更高的方向演进。虽然引用传统索引技术,但是对硬件的需求并不比hadoop高,不会让小型用户望而却步。技术上YDB采用Java语言编 写,接地气,Sql接口用户也更易于上手使用,同时每天千亿增量万亿总量的数据量也能满足高端用户的需求。YDB主要技术方向在大索引,大索引的好处在于 加快了检索的速度,减少查询中的分组、统计和排序时间,提高系统的性能和响应时间来节约资源。大索引技术的运用才能使YDB在如此大规模的数据量下依然保 持查询响应时间在几秒,数据导入延迟在几分钟。

    大数据时代拼的不仅仅是数据量有多大,还要拼速度,拼谁的更快、更准、成本更低。大数据的运用领域还在不断的扩张,大索引技术还有很长的路要走。终有一天大数据会带给我们震撼世界的影响。

  3. 大数据
    理由
    举报 取消

    很多的,Hadoop,java,linux,mysql等等之类的工具。柠檬学院官网-大数据在线培训

  4. 匿名用户
    理由
    举报 取消

    并不需要很多种工具 ethink大数据分析一站式平台 涵盖了数据存储 处理 数据分析 数据挖掘 bi前端展示

  5. 匿名用户
    理由
    举报 取消

    此篇文章来用户,讲述了他使用BDP的过程和感受。感谢他倾情推荐,感谢他一直的支持,更感谢众多用户对BDP的支持和喜爱!以下是文章正文:

    之前安利过不少数据可视化工具,像超级好用的Tableau,但是总有不愿安装软件、或者觉得学习新软件成本高的人存在,于是在这里介绍一下BDP个人版

    (可支持接入多种数据源)

    对了,针对不想上传数据的懒人,BDP也贴心地提供了一些免费的公共数据,如天气数据(有历史、预测的天气情况,感觉物流、生鲜的童鞋可以看看)、本地生活数据(有全国美食地域分布数据,吃货们可以看看,通过分析找到自己想吃的菜,这也是一件很酷的事情)等。

    (有天气数据、本地生活数据等免费数据源)

    其次,建立一个专属的仪表盘,比如我取名“雅思分析”,开始选择添加图表,一个仪表盘中可以使用来源不同工作表/数据源的数据,也可以同时容纳各种图表:包括柱状图、雷达图、饼图等普通图表,还有热力、点状、散点等地图图表,还可以插入文字呢(比如对图表的解析文字)。 ,一个仪表盘能包括不少信息呢,图表+文字,做数据分析专题、数据汇报都是很不错!

    (专属仪表盘:雅思分析)

    接着就可以开始“画图”啦,操作很简单,不需要写函数公式,直接把左边的数据分别拖到维度和数值栏中,BDP就默认呈现适合的图表了;

    不想要默认的图表怎么办?更简单了,在页面右边选择想要的图表类型就好了,BDP立马帮你切到你选的图表,1秒就够了,一眨眼图表就换了!

    咦,怎么感觉自己做的图表不够好看呢?别急嘛,还可以对图表做一些细节的“润色”,比如给图表加个辅助线可以更好理解;可以在筛选器过滤一部分的数据;也可以把数据字段拖到颜色栏,用颜色深浅来表现数据,比如下图!这些都是比较常见的“润色”方式了,制作图表中都很常见!最后,这样一张美观的图表就“画”好了~

    按好以上的步骤做好一张张图表,这些图表都是统一在仪表盘显示,图表大小可以在仪表盘中拉动调整,这样一份完整的展示报告就完成了!

    好看、酷炫的展示效果不想跟他人分享一下嘛?反正我分享给同学了,这个数据对他也有一定的帮助,也想让他夸夸我嘛,这感觉多好啊,嘻嘻!

    对了,要是你不想寄已做一个数据报告,不会做也好,不想做也好,这个问题也能解决,继续往下看咯~

    BDP有个模板中心,里面有不少预设的面对各种岗位的分析模板,拿来用也好,拿来练手也好都是非常方便的,可以直接把数据替换成你自己的数据,然后预设的模板效果也随之更新了,这样你稍微调整下效果,这个数据报告就是你寄已的啦!不过这个数据中心是针对运营、销售等岗位的,所以数据也更偏向他们,不过你完全可以学习分析思路嘛,这个都是通用哒!

    BDP还有一个锦上添花的功能:制作数据地图,这是我最稀饭的功能了,没有之一。它还能并且支持坐标纠偏,也算一个辅助功能。比如心血来潮,想了解下我们班的小伙伴都来自哪些地方呢,地图很直观地告诉我:北京、上海的童鞋最多啦,而且我们同学遍布全国啊,以后可以逛遍全国啊!

    虽说是安利产品,但人无完人嘛,更何况是人制作出来的产品呢,感觉BDP有一丢丢小缺陷,提点小意见:希望BDP能继续改进一下移动端的体验,增加一下图表适配屏幕的能力,要是能实现那就更加完美啦!总之,BDP还是不错的,很适合数据小白,也很适合运营、销售等童鞋!

我来回答

Captcha 点击图片更换验证码