传统BI业务用Hadoop家族产品完全重做,应该怎样选型? 举报 理由 举报 取消 公司从事医疗保险行业BI已经十余年,近期在考虑试水转移到Hadoop,应该搭建怎样的一个结构?数据量并不是很大,最大的项目不超过4T。比较关心的是ETL能否转移到Hadoop,转移后效率能否变高?OLAP部分应该怎样去替换?想用WebService做OLAP结果输出到以前的UI,这个需要用什么做? 2017年10月21日 4 条回复 1457 次浏览 BI,Hadoop,商业,大数,据分析,智能
回复 ( 4 )
这种问题…
真的要收钱的… 架构顾问即视感.
贵公司慢慢摸索吧
问题解决了,来公布一下我们的方案吧:
ETL部分用Spark RDD ,前期有想用DataFrame,毕竟原来的产品都是SQL写的,但是做了一个Sample以后,发现这会让开发人员陷入SQL的思维模式,因为有SQL代码可以参考,很多应该重构的东西居然都照抄了。最后我们用的RDD,我们是一个新团队在做,而且都是写JAVA转过来的,转scala也很快,思维模式也更贴近RDD的实现方式。
OLAP部分还在做,目前选型方向是Kylin。其实我个人更看好就用Spark本身做开发,但是公司觉得周期会太长,如果有合适的基于Spark做的OLAP产品,我们后续也会考虑换,本身还是更喜欢基于Spark开发的产品,速度快太多。
其余配套的Engine,比如HCC、Symmetry、Hedis,都是基于Spark开发的。
平台部分,现在第一版是用Linux shell写的,下一个版本会切换到Nifi。个人很看好Nifi:UI强大,支持hadoop,支持集群,扩展容易。
我们做的集群不是很大,有3个集群,最大的一个也才10个节点,单节点20GB内存+6个Core。
目前做了一个比较粗糙的性能测试,1亿条数据做Encounter Compression 耗时7分钟左右,还没有对服务器做任何参数优化,优化后应该还可以更快。
这个问题现在解决了吗?遇到同样问题
Hadoop 做ETL, 传统数据库做结果处理。