searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

基于天翼云大数据平台翼MR构建流批一体架构

2026-05-13 18:11:39
0
0
 

天翼云数据平台翼 MR 支持构建流批一体架构,核心是围绕统一计算引擎、统一存储、统一元数据、统一调度与运维四层打通,以 Flink 为核心、Iceberg/HDFS 为湖、Doris 为仓,实现 “一份数据、一套代码、流批混跑”

1.  整体架构

翼 MR 流批一体采用 “数据采集→统一存储湖仓→流批融合计算→统一服务与治理” 四层架构,由翼 MR Manager 统一管控。

2.  分层构建

2.1 数据采集层:流批统一接入

1)实时流数据:Kafka+Flink CDC,捕获数据库 Binlog、日志、IoT 设备数据,毫秒级延迟。

2)离线批数据:SeaTunnel/Sqoop/Flume,对接 HDFS 等,支持全量 / 增量批量导入。

3)统一接入规范:流数据实时入湖,批数据定时入湖,统一格式(Parquet/ORC/Iceberg)与分区策略。

2.2 存储层:湖仓一体,统一数据底座

1)数据湖(统一存储)

1HDFS:原生分布式文件系统,支撑 EB 级离线数据存储。

2Iceberg:开源表格式存储,提供 ACID 事务、Schema 演进、分区裁剪,流批数据统一管理,解决数据一致性问题。

2)数据仓库(加速与服务)Apache Doris:MPP 实时数仓,高并发低延迟,承接 Flink 流计算结果与 Spark 批计算结果,提供统一 SQL 查询、实时大屏、多维分析。

3)核心设计:流数据写入 Kafka→Flink 实时写入 Iceberg/Doris;批数据直接写入 Iceberg/HDFS;一份数据同时支持流计算、批计算、交互式查询,无冗余。

2.3 计算层:Flink 核心,流批融合

1)统一计算引擎(核心)

1Apache Flink(主推):原生流批一体,一套 API(DataStream/Table SQL)同时处理实时流与离线批;支持事件时间、状态后端、 Exactly-Once,保障数据一致性。

2Spark(批增强):处理大规模离线批任务,可直接读取 Iceberg/HDFS 数据,结果写入 Doris 供实时查询。

2计算协同流程

1流模式:Flink CDC→Kafka→Flink Streaming→Iceberg/Doris(实时 ETL、实时数仓)。

2批模式:Spark/Hive→Iceberg/HDFS→Flink Batch→Doris(离线分析、报表)。

3混跑模式:Flink SQL 统一编写流批逻辑,自动识别数据源(Kafka = 流,HDFS = 批),调度器自动分配资源,流批任务并行互不干扰。

3)资源隔离与优化:YARN 资源调度,支持流 / 批任务资源组隔离、Workload Group 精细化管控;Flink 向量化执行 + Doris CBO 优化,提升性能。

2.4 元数据与治理层:统一管控,消除孤岛

1)统一元数据管理共享 Catalog(Hive Metastore+Iceberg Catalog),统一管理湖(Iceberg/HDFS)与仓(Doris)的表结构、分区、权限,流批引擎无需同步元数据。

2)统一数据治理

1数据一致性:Iceberg ACID+Flink Exactly-Once,避免流批数据重复 / 丢失。

2数据质量:内置数据校验、血缘追踪、异常告警,覆盖流批全链路。

3安全权限:RBAC 细粒度权限、数据脱敏、审计日志,统一管控流批数据访问。

3)统一运维(翼 MR Manager)

1一键部署 Flink/Spark/Iceberg/Doris 集群,支持水平容。

2流批任务统一监控(延迟、吞吐、资源使用率)、日志集中管理、故障自动转移。

3.  关键技术与优势

1)流批融合引擎:Flink 一套代码处理流 / 批,降低开发与维护成本。

2)湖仓一体存储:Iceberg 统一湖仓,一份数据多用途,减少冗余,提升一致性。

3)统一元数据与治理:消除引擎孤岛,数据全链路可控可管。

4.  典型部署与业务场景

1)部署拓扑:翼 MR 集群(Flink+Spark+Iceberg+Doris+Kafka+HDFS),基于天翼云 ECS/EVS/VPC,支持私有云 / 混合云部署。

2)适用场景:实时数仓、日志分析、IoT 数据分析、用户行为分析、离线报表 + 实时大屏融合场景。

5.  快速落地步骤

1)部署翼 MR 集群,勾选 Flink、Spark、Iceberg、Doris、Kafka、HDFS 组件。

2)规划数据湖(HDFS+Iceberg)与数仓(Doris)分层,定义统一表结构与分区策略。

3)开发数据采集流程:实时数据用 Flink CDC+Kafka,离线数据用 SeaTunnel,统一写入 Iceberg。

4)用 Flink SQL/DataStream 开发流批一体任务,结果写入 Doris 供查询。

5)配置翼 MR Manager 监控与告警。

0条评论
作者已关闭评论
刘****鑫
10文章数
0粉丝数
刘****鑫
10 文章 | 0 粉丝
原创

基于天翼云大数据平台翼MR构建流批一体架构

2026-05-13 18:11:39
0
0
 

天翼云数据平台翼 MR 支持构建流批一体架构,核心是围绕统一计算引擎、统一存储、统一元数据、统一调度与运维四层打通,以 Flink 为核心、Iceberg/HDFS 为湖、Doris 为仓,实现 “一份数据、一套代码、流批混跑”

1.  整体架构

翼 MR 流批一体采用 “数据采集→统一存储湖仓→流批融合计算→统一服务与治理” 四层架构,由翼 MR Manager 统一管控。

2.  分层构建

2.1 数据采集层:流批统一接入

1)实时流数据:Kafka+Flink CDC,捕获数据库 Binlog、日志、IoT 设备数据,毫秒级延迟。

2)离线批数据:SeaTunnel/Sqoop/Flume,对接 HDFS 等,支持全量 / 增量批量导入。

3)统一接入规范:流数据实时入湖,批数据定时入湖,统一格式(Parquet/ORC/Iceberg)与分区策略。

2.2 存储层:湖仓一体,统一数据底座

1)数据湖(统一存储)

1HDFS:原生分布式文件系统,支撑 EB 级离线数据存储。

2Iceberg:开源表格式存储,提供 ACID 事务、Schema 演进、分区裁剪,流批数据统一管理,解决数据一致性问题。

2)数据仓库(加速与服务)Apache Doris:MPP 实时数仓,高并发低延迟,承接 Flink 流计算结果与 Spark 批计算结果,提供统一 SQL 查询、实时大屏、多维分析。

3)核心设计:流数据写入 Kafka→Flink 实时写入 Iceberg/Doris;批数据直接写入 Iceberg/HDFS;一份数据同时支持流计算、批计算、交互式查询,无冗余。

2.3 计算层:Flink 核心,流批融合

1)统一计算引擎(核心)

1Apache Flink(主推):原生流批一体,一套 API(DataStream/Table SQL)同时处理实时流与离线批;支持事件时间、状态后端、 Exactly-Once,保障数据一致性。

2Spark(批增强):处理大规模离线批任务,可直接读取 Iceberg/HDFS 数据,结果写入 Doris 供实时查询。

2计算协同流程

1流模式:Flink CDC→Kafka→Flink Streaming→Iceberg/Doris(实时 ETL、实时数仓)。

2批模式:Spark/Hive→Iceberg/HDFS→Flink Batch→Doris(离线分析、报表)。

3混跑模式:Flink SQL 统一编写流批逻辑,自动识别数据源(Kafka = 流,HDFS = 批),调度器自动分配资源,流批任务并行互不干扰。

3)资源隔离与优化:YARN 资源调度,支持流 / 批任务资源组隔离、Workload Group 精细化管控;Flink 向量化执行 + Doris CBO 优化,提升性能。

2.4 元数据与治理层:统一管控,消除孤岛

1)统一元数据管理共享 Catalog(Hive Metastore+Iceberg Catalog),统一管理湖(Iceberg/HDFS)与仓(Doris)的表结构、分区、权限,流批引擎无需同步元数据。

2)统一数据治理

1数据一致性:Iceberg ACID+Flink Exactly-Once,避免流批数据重复 / 丢失。

2数据质量:内置数据校验、血缘追踪、异常告警,覆盖流批全链路。

3安全权限:RBAC 细粒度权限、数据脱敏、审计日志,统一管控流批数据访问。

3)统一运维(翼 MR Manager)

1一键部署 Flink/Spark/Iceberg/Doris 集群,支持水平容。

2流批任务统一监控(延迟、吞吐、资源使用率)、日志集中管理、故障自动转移。

3.  关键技术与优势

1)流批融合引擎:Flink 一套代码处理流 / 批,降低开发与维护成本。

2)湖仓一体存储:Iceberg 统一湖仓,一份数据多用途,减少冗余,提升一致性。

3)统一元数据与治理:消除引擎孤岛,数据全链路可控可管。

4.  典型部署与业务场景

1)部署拓扑:翼 MR 集群(Flink+Spark+Iceberg+Doris+Kafka+HDFS),基于天翼云 ECS/EVS/VPC,支持私有云 / 混合云部署。

2)适用场景:实时数仓、日志分析、IoT 数据分析、用户行为分析、离线报表 + 实时大屏融合场景。

5.  快速落地步骤

1)部署翼 MR 集群,勾选 Flink、Spark、Iceberg、Doris、Kafka、HDFS 组件。

2)规划数据湖(HDFS+Iceberg)与数仓(Doris)分层,定义统一表结构与分区策略。

3)开发数据采集流程:实时数据用 Flink CDC+Kafka,离线数据用 SeaTunnel,统一写入 Iceberg。

4)用 Flink SQL/DataStream 开发流批一体任务,结果写入 Doris 供查询。

5)配置翼 MR Manager 监控与告警。

文章来自个人专栏
文章 | 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0