土豪寻找250PB数据库练习大数据Presto，那里有那么大的，虚拟机是M$的可以吗？

理由

举报取消

那个版本LINUX最方便，U盘启动250MB的小系统能用吗

Presto是Facebook最新研发的数据查询引擎，可对250PB以上的数据进行快速地交互式分析。据称该引擎的性能是 Hive 的 10 倍以上。

PrestoDB 是 Facebook 推出的一个大数据的分布式 SQL 查询引擎。可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别。

Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品。单个 Presto 查询可合并来自多个数据源的数据进行统一分析。

Presto 的目标是在可期望的响应时间内返回查询结果。Facebook 在内部多个数据存储中使用 Presto 交互式查询，包括 300PB 的数据仓库，超过 1000 个 Facebook 员工每天在使用 Presto 运行超过 3 万个查询，每天扫描超过 1PB 的数据。此外包括 Airbnb 和 Dropbox 也在使用 Presto 产品。

Presto 是一个分布式系统，运行在集群环境中，完整的安装包括一个协调器 (coordinator) 和多个 workers。查询通过例如 Presto CLI 的客户端提交到协调器，协调器负责解析、分析和安排查询到不同的 worker 上执行。

此外，Presto 需要一个数据源来运行查询。当前 Presto 包含一个插件用来查询 Hive 上的数据，要求

外，Presto 需要一个数据源来运行查询。当前 Presto 包含一个插件用来查询 Hive 上的数据，要求：

Hadoop CDH4

远程 Hive metastore service

Presto 不使用 MapReduce ，只需要 HDFS

要求：

Mac OS X or Linux

Java 7, 64-bit

Maven 3 (for building)

Python 2.4+ (for running with the launcher script)

2017年11月30日 3 条回复 1678 次浏览

土豪,数据,数据库,虚拟机,计算

回复 ( 3 )

桑文锋初入职场
0
举报回复
理由

举报取消

这个目前只有这几个巨头有这么大的数据量，我在百度负责的数据仓库就有数百PB，每天新增加的数据也有1个PB以上。你只是用来练手的话，就没必要测试那么大的数据量。

你不一定要用自己做的虚拟机，可以直接在阿里云之类的租用现成的虚拟机，只用一两天也很便宜的，可以搭建试试。

除了Presto，还有Spark SQL，Impala，都能进行类似的查询。
zhen-liang 初入职场
0
举报回复
理由

举报取消

比Hive高效7倍 Facebook推新一代查询引擎Presto

发表于2013-06-13 14:14| 13672次阅读| 来源CSDN编译| 26 条评论| 作者张红月

Facebook数据仓库Hive Presto开源大数据

摘要：Presto是Facebook最新研发的数据查询引擎，可对250PB以上的数据进行快速地交互式分析。Facebook表示，该工具将于今年秋天以开源的形式与大家见面。

在Facebook总部的一次开发者会议上，这个社交网络巨头的工程师透露，他们正在使用新的自主研发的查询引擎Presto，在已有的250PB的庞大数据仓库上进行交互式分析。

据Martin Traverso工程师透露，有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前，我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多，Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具，但它们要么在功能有所限制要么就太简单，以至于无法操作我们庞大的数据仓库。而在过去的几个月中，我们一直使用Presto来填补这方面的空白。

Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖MapReduce进行运行，所以随着年龄的上升，其在速度上已不能满足日益增长的数据要求。浏览一个完整的数据集可能要花费几分到几小时，这完全是不切实际的。

Traverso还表示，使用Presto进行简单的查询只需要几百毫秒，即使是非常复杂的查询，也只需数分钟即可完成，它在内存中运行，并且不会向磁盘写入。

虽然看起来Presto如同Facebook版的Cloudera Impala SQL查询引擎，或与Hortonworks在Stinger项目中所做的事情相似，但这是按照Facebook规模为实现更快操作而定制的版本。Presto并不会与其他商业产品进行竞争，但它会很快让大数据行业产生不小的震动。并且Facebook打算在今年秋天以开源的形式发布Presto。

Facebook的工程经理Ravi Murthy表示，随着用户量地不断增长，数据仓库也在快速增长，它比四年前要大4000倍。Murthy 也表示，在接下来几年，数据将会达到艾字节。因此，为了适应这种数据规模，我们不得不重新考虑许多东西。

Presto则是其中之一，除了提高查询速度，在CPU使用效率上，这个引擎比Hive高效7倍。另外一个正在进行的项目是缩减Facebook数据中心的分析数据空间。

对于Facebook最新推出的查询引擎Presto，微博上的各位大神又有哪些看法呢？

原EMC中国研究院大数据实验室负责人大数据皮东：Facebook最新的交互式大数据查询系统Presto，类似于Cloudera的Impala和Hortonworks的Stinger，解决Facebook迅速膨胀的海量数据仓库快速查询需求。Facebook针对Exabyte规模数据正在开发新一代大数据系统，Presto是其中的数据仓库交互查询系统，应该还有海量存储系统。在这个级别，很多设计需要考虑！

新浪CTO兼联席总裁许良杰Jack：社交网络和社会化媒体催生了真正的大数据（Big Data）平台。新浪微博也不例外……

英国利兹大学计算机及语言学研究员，搜索项目博士后研究员vinW：1. presto秋季会开源；2.比hive快七倍；3.基于内存

Launch_Bruce：FaceBook不是搜索引擎，对实时性的要求更高，即使当初推出Hive，也只能是权宜之计。这属于Hadoop的基因，Hadoop必将会让很多没有深度思索盲目上马的项目最后举步维艰。但是显然Hadoop成功的生态系统也会害了不少人。

TeslaElon：加油！Big Data会衍生出很多商业机会。尤其是与最大的电商平台阿里巴巴以及最大的视频平台YOKU潜在的合作值得期待。另外Sina投资了不少微博上的火爆应用，很多机会，后面看Sina研发和管理以及销售如何做好。

搬运大数据的亨利：大约五年以前做大数据分析，我们的MPP产品就已经有这些策略了。当时，最大的问题是大数据在互联网，但这些明星企业不爱花钱购买只爱造轮子。还是电信客户好，他们愿意花钱采购而不是造轮子。
jusalun 初入职场
0
举报回复
理由

举报取消

– -这么大的数据量只有bat有吧，而且一般接触数据的都是各个公司的DBA，撇除被恶意脱裤的情况，基于职业道德也不会把自己家数据库备下来给你玩吧。

如果只是练手的话网上搜一下，前几年爆出来的如家，快捷，汉庭数据托管中心的脱裤文件，他们的数据库备份是基于sqlserver的有1个G多另外还有一份csv的文件，号称2500w开房数据

找回密码

土豪寻找250PB数据库练习大数据Presto，那里有那么大的，虚拟机是M$的可以吗？

发起人：zhen-liang 初入职场

回复 ( 3 )

我来回答

帐户注册

登录

找回密码

土豪寻找250PB数据库练习大数据Presto，那里有那么大的，虚拟机是M$的可以吗？

发起人：zhen-liang 初入职场

回复 ( 3 )

我来回答