Python在大数据领域是怎么来应用的?

理由
举报 取消

我的意思是在大数据开发领域 python一般做什么?和java比python是最优选择么

2017年9月24日 1 条回复 1020 次浏览

回复 ( 1 )

  1. Moones
    理由
    举报 取消
    有些办法。比如使用array, numpy.array。 主要的思路是节约内存的使用,同时提高数据查询的效率。
    
    如果能够注意这些内容,处理几个GB的数据还是轻松的。 接下来就是分布式计算。 按mapreduce的思路。数据尽量在本地处理。所以算法上要优化。主要是分段。
    
    不管怎么说。这几个方面所有的语言都是相同的。即使你用的是C语言也一样要考虑到这些。大数据因为量大,算法也需要改进。
    
    对于不能改进的算法(好象还没有遇到)也只好用python接C的扩展模块了。 好在python与C有很好的接口。轻松就接上。
    
    最近比较流行的方法是使用cython,一方面可以略略提高速度,另一方面与C有无缝的接口。
    
    java在处理大数据方面速度与易用性略略占优势。C++也经常会使用在核心算法上。语言本身都不是问题。大部分时候大数据还是在处理算法本身而不是语言。
    
    在原型阶段python很方便,快速,灵活。所以大数据处理中python是几种语言中最适合的。特别是早期探索阶段。业务与算法经常变更。到了后期基本上都是C++了。java比较适合工程化阶段。
    

我来回答

Captcha 点击图片更换验证码