怎么搭建大数据分析平台?

理由
举报 取消

怎么搭建大数据平台,一般涵盖哪些组件,希望有具体的流程和步骤

2017年11月10日 4 条回复 1418 次浏览

发起人:miao君 管理大师

据说帆软有个传说哥,嗯,就是我

回复 ( 4 )

  1. 胡海
    理由
    举报 取消

    先来谈谈企业搭建大数据分析平台的背景。

    1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。 所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。

    2、大数据拥有价值。来看看数据使用金字塔模型,从数据的使用角度来看,数据基本有以下使用方式:

    自上而下,可以看到,对数据的要求是不一样的:

    • 数据量越来越大,维度越来越多。
    • 交互难度越来越大。
    • 技术难度越来越大。
    • 以人为主,逐步向机器为主。
    • 用户专业程度逐步提升,门槛越来越高。

    企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。

    整体方案思路如下:

    建设企业的基础数据中心,构建企业统一的数据存储体系,统一进行数据建模,为数据的价值呈现奠定基础。同时数据处理能力下沉,建设集中的数据处理中心,提供强大的数据处理能力;通过统一的数据管理监控体系,保障系统的稳定运行。有了数据基础,构建统一的BI应用中心,满足业务需求,体现数据价值。

    提到大数据就会提到hadoop。大数据并不等同于hadoop,但hadoop的确是最热门的大数据技术。下面以最常用的混搭架构,来看一下大数据平台可以怎么来搭建,支撑企业应用:

    通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。

    利用spark和hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。

    同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。

  2. 上海新炬
    理由
    举报 取消

    提到大数据,无可避免的就会提到Hadoop。尽管大数据并不等同于Hadoop,但Hadoop确实是最热门的大数据技术。下面是最常用的混搭架构,来看一下大数据平台可以怎么搭建,支撑企业应用:

    通过Kafka作为统一采集平台的消息管理层,灵活的对接、适配各种数据源采集(如集成flume),提供灵活、可配置的数据采集能力。

    利用Spark和Hadoop技术,构建大数据平台最为核心的基础数据的存储、处理能力中心,提供强大的数据处理能力,满足数据的交互需求。同时通过Sparkstreaming,可以有效满足企业实时数据的要求,构建企业发展的实时指标体系。

    同时为了更好的满足的数据获取需求,通过RDBMS,提供企业高度汇总的统计数据,满足企业常规的统计报表需求,降低使用门槛。对大数据明细查询需求,则通过构建HBase集群,提供大数据快速查询能力,满足对大数据的查询获取需求。

  3. 乔莉亚
    理由
    举报 取消

    大数据分析平台实现技术

    1 硬件平台

    大数据分析平台需要进行 PB 级数据的读取、写入,需要进行数据挖掘模型的大规模运算,需要进行预测结果的发布,对底层基础硬件的磁盘 IO 和运算速度要求很高,同时需要满足分布式、动态扩展的要求,因此采用配置为 2 路 8 核CPU、128GB 内存、千兆网卡的x86架构 PC Server 服务器。

    2 平台软件

    操作系统软件采用 Red Hat,数据采集采用 Flume-NG, 海量数据存储及分布式计算采用Hadoop,数据清洗采用 Hive,数据挖掘引擎采用 Spark R,预测结果保存在 HBase 中。

    采 用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统。

    采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算。

    采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务。

    采用 Spark R 组件,Spark R 提供了 Spark中弹性分布式数据集的 API,用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。

    采用 HBase 技术可以提供海量数据的高效发布。

    3 大数据挖掘模型开发

    数据采集存储模块:DPI、业务侧、网元侧数据通过文件接口方式发送到 Flume-NG 集群,Flume-NG 通过 memory 数据传输方式,将接收到的数据实时的通过 hdfs 方式汇聚到大数据分析平台。

    数据清洗模块:通过编写 HQL 脚本对数据进行清洗、转换,形成特征宽表。

    数据挖掘模块:基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法,进行模型开发、模型评估、模型应用。

    分析结果发布:模型应用的结果集存储在HBase 中,首先需要在 HBase 中新建存储结果集的 HBase 表,通过 Map Reduce 生成 HFile文件,然后通过 Bulk Load 方式入库。数据的调用通过 HBase API 实现,数据的展现通过ECharts 技术实现。

    可以关注一下ETHINK数据智能分析平台

  4. 金桔
    理由
    举报 取消

    如果用开源产品搭建大数据平台,还是很繁琐的,需要对细节比较了解。

    可以选择商业版的hadoop平台,支持可视化一键部署。

    有的大数据平台厂商利用的docker技术,直接就秒级创建一个大数据分布式平台

我来回答

Captcha 点击图片更换验证码