在上一篇文章中,我们主要介绍了数据湖的背景,以及为什么要建设数据湖和引入存算分离技术,本文我们将继续就存算分离数据湖进行展开,看一看业界目前存算分离数据的发展,以及他们是如何解决存算分离带来的技术挑战。
市场主要玩家
在云原生数据湖领域,我们先看国内,主要玩家为A云、H云和T云。A云拥有非常完善的大数据产品矩阵,H云则通过低价策略进行市场渗透,T云则通过开源技术栈和开放生态抢占市场。
具体到数据湖存储,A云、H云、T云均采用了对象存储作为湖存储底座,并在对象存储之上提供了多种大数据组件和计算框架集成服务
再放眼国外,主要以AWS S3为基础的数据湖占据绝大多数市场,成为了对象存储领域事实标准,AWS同时提供了丰富的计算和分析生态深度融合,Azure则基于BlobStorage提供了ADLS数据湖存储服务。其中,S3/Azure等国外竞品在数据湖方面走得更快一些,主要优势在生态集成。
|
A云 |
H云 |
T云 |
AWS |
数据湖方案 |
JindoFS+OSS |
OBS并行文件系统 |
GooseFS+COS |
EMRFS+S3 |
部署模式 |
EMR部署 私有化部署 DLF Serverless |
DLI Serverless |
EMR部署 私有化部署 DLC Serverless |
EMR部署 |
底层存储支持 |
OSS HDFS |
OBS |
COS CHDFS |
AWS S3 HDFS |
计算引擎支持 |
Spark、Hive、Impala、Presto、Tez、HBase |
Spark、Hive、OpenLookeng(Presto) |
Spark、Hive、Impala、Presto、Tez、HBase |
Spark、Hive、Impala、Presto |
相关特性 |
基于JindoFS的湖加速、文件系统和元数据操作优化 |
|
基于GooseFS的三级加速体系 |
|
A云原生数据湖方案
A云原生数据湖架构
- 数据湖存储层基于OSS,通过JIndoFS实现OSS-HDFS文件系统兼容,实现分布式缓存加速;
- 通过DLF对元数据进行统一管理和加速,并解决入湖和分析能力;
- 兼容开放湖格式,包括hudi、iceberg等;
- 上层支持多计算引擎,通过DW进行数据开发和治理。
A云原生数据湖核心技术架构
核心技术点
- JindoFS:模拟文件系统,元数据性能优化。冷热分层
- JindoCache:超大规模下热数据缓存,远端数据访问加速
- JindoSDK:ObjectStore/DataStream/FileSystem API
- 湖生态:ETL优化(目录/原子rename,实时Sink等)
T云原生数据湖方案
T云原生数据湖架构
- 以对象存储COS为底座,通过COSN实现HCFS接口兼容HDFS文件系统
- Lakehouse方案以湖格式iceberg为主要技术路线,进一步接入hudi和deltalake中
- 自研数据湖三层加速体系:GooseFS、元数据加速、COS加速
T云原生数据湖核心技术架构
核心技术点:
- COS加速:全SSD存储、热数据读加速、Tbps带宽
- 元数据加速:文件系统级别元数据操作能力、rename、list操作优化
- GooseFS数据加速:Data cache、热数据缓存
下一篇,我将会就基于天翼云弹性存储的云原生数据湖架构方案提出设计和展望。