传统BI业务用Hadoop家族产品完全重做,应该怎样选型?

理由
举报 取消

公司从事医疗保险行业BI已经十余年,近期在考虑试水转移到Hadoop,应该搭建怎样的一个结构?数据量并不是很大,最大的项目不超过4T。比较关心的是ETL能否转移到Hadoop,转移后效率能否变高?OLAP部分应该怎样去替换?想用WebService做OLAP结果输出到以前的UI,这个需要用什么做?

2017年10月21日 4 条回复 1457 次浏览

发起人:陈磊 初入职场

回复 ( 4 )

  1. Reid Chan
    理由
    举报 取消

    这种问题…

    真的要收钱的… 架构顾问即视感.

    贵公司慢慢摸索吧

  2. 陈磊
    理由
    举报 取消

    问题解决了,来公布一下我们的方案吧:

    ETL部分用Spark RDD ,前期有想用DataFrame,毕竟原来的产品都是SQL写的,但是做了一个Sample以后,发现这会让开发人员陷入SQL的思维模式,因为有SQL代码可以参考,很多应该重构的东西居然都照抄了。最后我们用的RDD,我们是一个新团队在做,而且都是写JAVA转过来的,转scala也很快,思维模式也更贴近RDD的实现方式。

    OLAP部分还在做,目前选型方向是Kylin。其实我个人更看好就用Spark本身做开发,但是公司觉得周期会太长,如果有合适的基于Spark做的OLAP产品,我们后续也会考虑换,本身还是更喜欢基于Spark开发的产品,速度快太多。

    其余配套的Engine,比如HCC、Symmetry、Hedis,都是基于Spark开发的。

    平台部分,现在第一版是用Linux shell写的,下一个版本会切换到Nifi。个人很看好Nifi:UI强大,支持hadoop,支持集群,扩展容易。

    我们做的集群不是很大,有3个集群,最大的一个也才10个节点,单节点20GB内存+6个Core。

    目前做了一个比较粗糙的性能测试,1亿条数据做Encounter Compression 耗时7分钟左右,还没有对服务器做任何参数优化,优化后应该还可以更快。

  3. 匿名用户
    理由
    举报 取消

    这个问题现在解决了吗?遇到同样问题

  4. 匿名用户
    理由
    举报 取消

    Hadoop 做ETL, 传统数据库做结果处理。

我来回答

Captcha 点击图片更换验证码