大数据处理中数据倾斜,是民间流传出来的?,有没有权威的定义和解释? 举报 理由 举报 取消 经常听别人说在用hadoop、hive的时候会遇到数据倾斜问题,到底什么是数据倾斜,查了各百科都没有查到,好像只有在统计学里有分布的偏度(左偏、不偏,右偏)。难道这个词是民间传出来的?有没有一个确切的定义和解释呢? 2017年6月8日 2 条回复 717 次浏览 数据,数据处理
回复 ( 2 )
hash的时候,如果有一个值特别多,那么他就分不掉,只能放到一个机器上去处理,这就是数据倾斜
我理解的数据倾斜(data skew)是指:
在进行分片(partitioning)时,由于所选的分片方法,造成多个分片中的数据不均等,而这些分片并行处理时,有的很短时间处理完,有的很长时间,使得总处理时间较长。
在大数据里也是同样的道理。