传统BI业务用Hadoop家族产品完全重做，应该怎样选型？

理由

举报取消

公司从事医疗保险行业BI已经十余年，近期在考虑试水转移到Hadoop，应该搭建怎样的一个结构？数据量并不是很大，最大的项目不超过4T。比较关心的是ETL能否转移到Hadoop，转移后效率能否变高？OLAP部分应该怎样去替换？想用WebService做OLAP结果输出到以前的UI，这个需要用什么做？

2017年10月21日 4 条回复 1595 次浏览

BI,Hadoop,商业,大数,据分析,智能

回复 ( 4 )

Reid Chan 初入职场
0
举报回复
理由

举报取消

这种问题…

真的要收钱的… 架构顾问即视感.

贵公司慢慢摸索吧
陈磊初入职场
0
举报回复
理由

举报取消

问题解决了，来公布一下我们的方案吧：

ETL部分用Spark RDD ，前期有想用DataFrame，毕竟原来的产品都是SQL写的，但是做了一个Sample以后，发现这会让开发人员陷入SQL的思维模式，因为有SQL代码可以参考，很多应该重构的东西居然都照抄了。最后我们用的RDD，我们是一个新团队在做，而且都是写JAVA转过来的，转scala也很快，思维模式也更贴近RDD的实现方式。

OLAP部分还在做，目前选型方向是Kylin。其实我个人更看好就用Spark本身做开发，但是公司觉得周期会太长，如果有合适的基于Spark做的OLAP产品，我们后续也会考虑换，本身还是更喜欢基于Spark开发的产品，速度快太多。

其余配套的Engine，比如HCC、Symmetry、Hedis，都是基于Spark开发的。

平台部分，现在第一版是用Linux shell写的，下一个版本会切换到Nifi。个人很看好Nifi：UI强大，支持hadoop，支持集群，扩展容易。

我们做的集群不是很大，有3个集群，最大的一个也才10个节点，单节点20GB内存+6个Core。

目前做了一个比较粗糙的性能测试，1亿条数据做Encounter Compression 耗时7分钟左右，还没有对服务器做任何参数优化，优化后应该还可以更快。
匿名用户管理大师
0
举报回复
理由

举报取消

这个问题现在解决了吗？遇到同样问题
匿名用户管理大师
0
举报回复
理由

举报取消

Hadoop 做ETL，传统数据库做结果处理。

找回密码

传统BI业务用Hadoop家族产品完全重做，应该怎样选型？

发起人：陈磊 初入职场

回复 ( 4 )

我来回答

帐户注册

登录

找回密码

传统BI业务用Hadoop家族产品完全重做，应该怎样选型？

发起人：陈磊 初入职场

回复 ( 4 )

我来回答

发起人：陈磊初入职场