Erasure Code编码大文件的问题? 举报 理由 举报 取消 分布式存储系统使用Erasure Code来容错的时候,对于大文件比如10GB,无法在单个节点上进行EC编码,那么怎么对10GB文件编码?分布式的方式? 2017年8月21日 3 条回复 793 次浏览 HDFS,存储产品,数据,计算
回复 ( 3 )
谢邀!
问题不成立,Erasure Code编码跟文件大小无关,任意大小的文件都能进行EC编码,单节点还是分布式都行,10GB文件可以自身分块编码,也可以和其他文件分块编码。编码速度采用AVX早已经突破10GB/s, EC编码不存在计算瓶颈,主要还是IO瓶颈,定义好编码块大小和编解码流程就行了。
作者对EC的理解有问题,看EC的具体实现如RS编码和LRC编码,对于10GB的大文件,可以先切分成固定大小,如2M,然后这样不管的进行编码就可以了。分布式使用EC主要是为了降低存储成本。
通常大文件需要先进行条带化处理,然后对每个条带分别执行RS编码