怎么样在大数据平台上建立的数据仓库中应用数据湖的方法论? 举报 理由 举报 取消 大数据,数据湖都是近来非常热门的话题,在大数据平台上建立数据仓库与在传统平台上建立数据仓库在方法论上到底有哪些区别,尤其是在模型层上,怎样将数据湖的概念应用到大数据平台上的数据仓库的建设中?期望大牛的解答 2017年11月28日 4 条回复 785 次浏览 分析,数据,数据仓库,数据挖掘
回复 ( 4 )
数湖并不是数仓的一部分,数湖的目的是多样性数据的最细粒度的存储。数仓可以作为数湖的下游,也可作为数湖中的数据源便于做整合。
数据湖泊(data lake)在方法论上的一个核心点是:data lake中存储的都是raw data,也就是数据源那边是怎么样的数据,进入数据湖泊的就是什么样的数据,所以,在数据进入到data lake中时不会设计或者新建schema,而是在数据使用者一端,从数据使用者的目的去定义schema。所以,本质上说,data lake和data warehouse是两个近乎相反的方法论。所以,“怎样在大数据平台上简历的数据仓库中应用数据湖的方法论”是一个矛盾的问题
方法论研究,这好像是teradata公司的研究方向吧?
可以关注开源数据湖Kylo的知乎专栏