土豪寻找250PB数据库练习大数据Presto,那里有那么大的,虚拟机是M$的可以吗?

理由
举报 取消

那个版本LINUX最方便,U盘启动250MB的小系统能用吗

Presto是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是 Hive 的 10 倍以上。

PrestoDB 是 Facebook 推出的一个大数据的分布式 SQL 查询引擎。可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别。

Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品。单个 Presto 查询可合并来自多个数据源的数据进行统一分析。

Presto 的目标是在可期望的响应时间内返回查询结果。Facebook 在内部多个数据存储中使用 Presto 交互式查询,包括 300PB 的数据仓库,超过 1000 个 Facebook 员工每天在使用 Presto 运行超过 3 万个查询,每天扫描超过 1PB 的数据。此外包括 Airbnb 和 Dropbox 也在使用 Presto 产品。

Presto 是一个分布式系统,运行在集群环境中,完整的安装包括一个协调器 (coordinator) 和多个 workers。查询通过例如 Presto CLI 的客户端提交到协调器,协调器负责解析、分析和安排查询到不同的 worker 上执行。

此外,Presto 需要一个数据源来运行查询。当前 Presto 包含一个插件用来查询 Hive 上的数据,要求

外,Presto 需要一个数据源来运行查询。当前 Presto 包含一个插件用来查询 Hive 上的数据,要求:

Hadoop CDH4

远程 Hive metastore service

Presto 不使用 MapReduce ,只需要 HDFS

要求:

Mac OS X or Linux

Java 7, 64-bit

Maven 3 (for building)

Python 2.4+ (for running with the launcher script)

2017年11月30日 3 条回复 1350 次浏览

发起人:zhen-liang 初入职场

天下第一只能和我一样

回复 ( 3 )

  1. 桑文锋
    理由
    举报 取消

    这个目前只有这几个巨头有这么大的数据量,我在百度负责的数据仓库就有数百PB,每天新增加的数据也有1个PB以上。你只是用来练手的话,就没必要测试那么大的数据量。

    你不一定要用自己做的虚拟机,可以直接在阿里云之类的租用现成的虚拟机,只用一两天也很便宜的,可以搭建试试。

    除了Presto,还有Spark SQL,Impala,都能进行类似的查询。

  2. zhen-liang
    理由
    举报 取消

    比Hive高效7倍 Facebook推新一代查询引擎Presto

    发表于2013-06-13 14:14| 13672次阅读| 来源CSDN编译| 26 条评论| 作者张红月

    Facebook数据仓库Hive Presto开源大数据

    摘要:Presto是Facebook最新研发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。Facebook表示,该工具将于今年秋天以开源的形式与大家见面。

    在Facebook总部的一次开发者会议上,这个社交网络巨头的工程师透露,他们正在使用新的自主研发的查询引擎Presto,在已有的250PB的庞大数据仓库上进行交互式分析。

    据Martin Traverso工程师透露,有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前,我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多,Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作我们庞大的数据仓库。而在过去的几个月中,我们一直使用Presto来填补这方面的空白。

    Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖MapReduce进行运行,所以随着年龄的上升,其在速度上已不能满足日益增长的数据要求。浏览一个完整的数据集可能要花费几分到几小时,这完全是不切实际的。

    Traverso还表示,使用Presto进行简单的查询只需要几百毫秒,即使是非常复杂的查询,也只需数分钟即可完成,它在内存中运行,并且不会向磁盘写入。

    虽然看起来Presto如同Facebook版的Cloudera Impala SQL查询引擎,或与Hortonworks在Stinger项目中所做的事情相似,但这是按照Facebook规模为实现更快操作而定制的版本。Presto并不会与其他商业产品进行竞争,但它会很快让大数据行业产生不小的震动。并且Facebook打算在今年秋天以开源的形式发布Presto。

    Facebook的工程经理Ravi Murthy表示,随着用户量地不断增长,数据仓库也在快速增长,它比四年前要大4000倍。Murthy 也表示,在接下来几年,数据将会达到艾字节。因此,为了适应这种数据规模,我们不得不重新考虑许多东西。

    Presto则是其中之一,除了提高查询速度,在CPU使用效率上,这个引擎比Hive高效7倍。另外一个正在进行的项目是缩减Facebook数据中心的分析数据空间。

    对于Facebook最新推出的查询引擎Presto,微博上的各位大神又有哪些看法呢?

    原EMC中国研究院大数据实验室负责人大数据皮东:Facebook最新的交互式大数据查询系统Presto,类似于Cloudera的Impala和Hortonworks的Stinger,解决Facebook迅速膨胀的海量数据仓库快速查询需求。Facebook针对Exabyte规模数据正在开发新一代大数据系统,Presto是其中的数据仓库交互查询系统,应该还有海量存储系统。在这个级别,很多设计需要考虑!

    新浪CTO兼联席总裁许良杰Jack:社交网络和社会化媒体催生了真正的大数据(Big Data)平台。新浪微博也不例外……

    英国利兹大学计算机及语言学研究员,搜索项目博士后研究员vinW:1. presto秋季会开源;2.比hive快七倍;3.基于内存

    Launch_Bruce:FaceBook不是搜索引擎,对实时性的要求更高,即使当初推出Hive,也只能是权宜之计。这属于Hadoop的基因,Hadoop必将会让很多没有深度思索盲目上马的项目最后举步维艰。但是显然Hadoop成功的生态系统也会害了不少人。

    TeslaElon:加油!Big Data会衍生出很多商业机会。尤其是与最大的电商平台阿里巴巴以及最大的视频平台YOKU潜在的合作值得期待。另外Sina投资了不少微博上的火爆应用,很多机会,后面看Sina研发和管理以及销售如何做好。

    搬运大数据的亨利:大约五年以前做大数据分析,我们的MPP产品就已经有这些策略了。当时,最大的问题是大数据在互联网,但这些明星企业不爱花钱购买只爱造轮子。还是电信客户好,他们愿意花钱采购而不是造轮子。

  3. jusalun
    理由
    举报 取消

    – -这么大的数据量只有bat有吧,而且一般接触数据的都是各个公司的DBA,撇除被恶意脱裤的情况,基于职业道德也不会把自己家数据库备下来给你玩吧。

    如果只是练手的话网上搜一下,前几年爆出来的如家,快捷,汉庭数据托管中心的脱裤文件,他们的数据库备份是基于sqlserver的有1个G多另外还有一份csv的文件,号称2500w开房数据

我来回答

Captcha 点击图片更换验证码