天翼云大数据平台翼 MR 支持构建流批一体架构,核心是围绕统一计算引擎、统一存储、统一元数据、统一调度与运维四层打通,以 Flink 为核心、Iceberg/HDFS 为湖、Doris 为仓,实现 “一份数据、一套代码、流批混跑”
1. 整体架构
翼 MR 流批一体采用 “数据采集→统一存储湖仓→流批融合计算→统一服务与治理” 四层架构,由翼 MR Manager 统一管控。
2. 分层构建
2.1 数据采集层:流批统一接入
(1)实时流数据:Kafka+Flink CDC,捕获数据库 Binlog、日志、IoT 设备数据,毫秒级延迟。
(2)离线批数据:SeaTunnel/Sqoop/Flume,对接 HDFS 等,支持全量 / 增量批量导入。
(3)统一接入规范:流数据实时入湖,批数据定时入湖,统一格式(Parquet/ORC/Iceberg)与分区策略。
2.2 存储层:湖仓一体,统一数据底座
(1)数据湖(统一存储):
1)HDFS:原生分布式文件系统,支撑 EB 级离线数据存储。
2)Iceberg:开源表格式存储,提供 ACID 事务、Schema 演进、分区裁剪,流批数据统一管理,解决数据一致性问题。
(2)数据仓库(加速与服务):Apache Doris:MPP 实时数仓,高并发低延迟,承接 Flink 流计算结果与 Spark 批计算结果,提供统一 SQL 查询、实时大屏、多维分析。
(3)核心设计:流数据写入 Kafka→Flink 实时写入 Iceberg/Doris;批数据直接写入 Iceberg/HDFS;一份数据同时支持流计算、批计算、交互式查询,无冗余。
2.3 计算层:Flink 核心,流批融合
(1)统一计算引擎(核心):
1)Apache Flink(主推):原生流批一体,一套 API(DataStream/Table SQL)同时处理实时流与离线批;支持事件时间、状态后端、 Exactly-Once,保障数据一致性。
2)Spark(批增强):处理大规模离线批任务,可直接读取 Iceberg/HDFS 数据,结果写入 Doris 供实时查询。
(2)计算协同流程:
1)流模式:Flink CDC→Kafka→Flink Streaming→Iceberg/Doris(实时 ETL、实时数仓)。
2)批模式:Spark/Hive→Iceberg/HDFS→Flink Batch→Doris(离线分析、报表)。
3)混跑模式:Flink SQL 统一编写流批逻辑,自动识别数据源(Kafka = 流,HDFS = 批),调度器自动分配资源,流批任务并行互不干扰。
(3)资源隔离与优化:YARN 资源调度,支持流 / 批任务资源组隔离、Workload Group 精细化管控;Flink 向量化执行 + Doris CBO 优化,提升性能。
2.4 元数据与治理层:统一管控,消除孤岛
(1)统一元数据管理:共享 Catalog(Hive Metastore+Iceberg Catalog),统一管理湖(Iceberg/HDFS)与仓(Doris)的表结构、分区、权限,流批引擎无需同步元数据。
(2)统一数据治理:
1)数据一致性:Iceberg ACID+Flink Exactly-Once,避免流批数据重复 / 丢失。
2)数据质量:内置数据校验、血缘追踪、异常告警,覆盖流批全链路。
3)安全权限:RBAC 细粒度权限、数据脱敏、审计日志,统一管控流批数据访问。
(3)统一运维(翼 MR Manager):
1)一键部署 Flink/Spark/Iceberg/Doris 集群,支持水平扩容。
2)流批任务统一监控(延迟、吞吐、资源使用率)、日志集中管理、故障自动转移。
3. 关键技术与优势
(1)流批融合引擎:Flink 一套代码处理流 / 批,降低开发与维护成本。
(2)湖仓一体存储:Iceberg 统一湖仓,一份数据多用途,减少冗余,提升一致性。
(3)统一元数据与治理:消除引擎孤岛,数据全链路可控可管。
4. 典型部署与业务场景
(1)部署拓扑:翼 MR 集群(Flink+Spark+Iceberg+Doris+Kafka+HDFS),基于天翼云 ECS/EVS/VPC,支持私有云 / 混合云部署。
(2)适用场景:实时数仓、日志分析、IoT 数据分析、用户行为分析、离线报表 + 实时大屏融合场景。
5. 快速落地步骤
(1)部署翼 MR 集群,勾选 Flink、Spark、Iceberg、Doris、Kafka、HDFS 组件。
(2)规划数据湖(HDFS+Iceberg)与数仓(Doris)分层,定义统一表结构与分区策略。
(3)开发数据采集流程:实时数据用 Flink CDC+Kafka,离线数据用 SeaTunnel,统一写入 Iceberg。
(4)用 Flink SQL/DataStream 开发流批一体任务,结果写入 Doris 供查询。
(5)配置翼 MR Manager 监控与告警。