大数据处理中数据倾斜,是民间流传出来的?,有没有权威的定义和解释?

理由
举报 取消

经常听别人说在用hadoop、hive的时候会遇到数据倾斜问题,到底什么是数据倾斜,查了各百科都没有查到,好像只有在统计学里有分布的偏度(左偏、不偏,右偏)。难道这个词是民间传出来的?有没有一个确切的定义和解释呢?

2017年6月8日 2 条回复 717 次浏览

发起人:木乎 初入职场

回复 ( 2 )

  1. 桂能
    理由
    举报 取消

    hash的时候,如果有一个值特别多,那么他就分不掉,只能放到一个机器上去处理,这就是数据倾斜

  2. 用心阁
    理由
    举报 取消

    我理解的数据倾斜(data skew)是指:

    在进行分片(partitioning)时,由于所选的分片方法,造成多个分片中的数据不均等,而这些分片并行处理时,有的很短时间处理完,有的很长时间,使得总处理时间较长。

    在大数据里也是同样的道理。

我来回答

Captcha 点击图片更换验证码