随着企业数字化转型的加速,数据孤岛问题愈发严重,数据分散在不同系统中,难以整合和共享。天翼云基于 Doris 和 Iceberg 构建的湖仓一体架构,有效解决了数据孤岛问题,实现了数据的高效整合与共享,同时具备高性能、低成本等优势,为企业数字化转型提供了有力支持。
一、数据孤岛的现状与挑战
在企业中,数据往往分散在多个存储产品中,形成了一个个数据孤岛。这些数据孤岛不仅导致数据存储成本高,而且数据的利用价值难以充分发挥。此外,业务中存在大量离线和实时数据的共享需求,数据来自不同的数据源和集群,涉及复杂的跨库、跨集群操作,数据的动态变化也增加了管理难度。同时,随着企业数字化程度的提高,数据治理和安全要求也越来越高,亟需统一的数据治理框架和安全策略。
二、Doris + Iceberg 的湖仓一体架构
天翼云采用 Doris 和 Iceberg 构建湖仓一体架构,成功打破了数据孤岛。Doris 是一款高性能的分析型数据库,具备卓越的实时分析能力,能够对数据进行极速分析。Iceberg 是一种开源、高性能、高可靠的数据湖表格式,支持多种主流查询引擎,具备 ACID、Schema 演进、高级过滤等特性。
(一)架构设计
天翼云的数据来源多样,包括 B 域、O 域和 M 域等多方数据。数据通过 Kafka 进行采集,并使用 Flink 和 Spark 实现数据加工处理。根据数据时效性的需求,数据被接入 Iceberg 数据湖或 Doris 内部存储。Doris 在这一架构中扮演了两个重要部分:
- 数据湖分析处理引擎:Doris 与 Iceberg 数据湖深度融合,能够直接访问 Iceberg 表中数据,实现湖中数据的加速查询。分析结果不仅可以展示给应用层,也可以通过 Doris 写回到 Iceberg 中进行存储,消除了数据孤岛,提升了分析效率。
- 实时分析引擎:Doris 具备卓越的实时分析能力,对于时效性要求更高的数据,经过处理后直接流入 Doris,使其能够快速进行分析和对外服务。
(二)打破数据孤岛的实现方式
- 数据整合与共享:通过 Doris 和 Iceberg 的结合,天翼云实现了数据的统一存储和管理。Doris 可以直接访问 Iceberg 表中的数据,无需数据迁移,降低了数据整合的成本。同时,Doris 支持将分析结果写回到 Iceberg 表中,实现了数据的双向流动,进一步促进了数据的共享。
- 高性能查询:Doris 作为分析引擎,能够对 Iceberg 表中的数据进行高效查询,提升了数据的利用价值。通过优化查询性能,如延迟物化功能,减少了网络 IO,提升了查询效率。
- 灵活的数据处理:Doris 支持对 Iceberg 表的多种操作,包括数据的清洗、加工和写入。这使得用户可以在 Doris 中完成复杂的数据处理任务,并将结果存储到 Iceberg 表中,满足了不同业务场景的需求。
三、多场景应用实践
(一)实时报表与多维分析
Doris 在天翼云的实时报表和多维分析场景中得到了广泛应用。通过替代原有的经分系统架构,Doris 提升了报表的生成周期和数据处理能力。同时,Doris 还成功替代了数据集市 Oracle 数据库,满足了业务对数据调用及查询响应的严格要求。此外,Doris 还实现了秒级别快速检索,提高了数据分析的实时性。
(二)湖仓融合分析
在湖仓融合分析场景中,Iceberg 作为主要的湖格式,存放了 TB 到 PB 级别的数据。Doris 引擎对 Iceberg 数据进行查询加速,支撑了 BI 报表、实时战报、智能运维等多种业务场景。通过数据缓存、物化视图透明加速等能力,Doris 极大地提升了湖上数据的分析性能。
(三)日志存储分析
天翼云引入 Doris 替代传统的 ELK 架构,提升了日志系统的查询效率。通过 Agent 或 Open Telemetry 上报日志数据,数据经过 Flink 加工或直接导入 Doris,最终由 Doris 提供对外服务。这一改变实现了写入吞吐提升、存储成本降低、百亿级日志检索秒级响应等显著收益。
(四)物联网数据分析
在物联网中,Doris 提供了海量数据的高并发查询能力。通过合理的分区分桶规划、卓越的数据索引和合理的导入批次设置,Doris 在物联网业务中实现了高性能的查询和写入。
四、未来展望
天翼云将继续推广 Doris,并在存算分离、业务落地、推动本土化和拥抱社区等方面发力。通过这些努力,天翼云将进一步提升湖仓一体架构的性能和功能,为企业提供更加高效、灵活和安全的数据解决方案。
总之,天翼云基于 Doris 和 Iceberg 构建的湖仓一体架构,成功打破了数据孤岛,实现了数据的高效整合与共享。这一架构不仅提升了数据的利用价值,还为企业数字化转型提供了有力支持。