在上一篇文章中，我们主要介绍了数据湖的背景，以及为什么要建设数据湖和引入存算分离技术，本文我们将继续就存算分离数据湖进行展开，看一看业界目前存算分离数据的发展，以及他们是如何解决存算分离带来的技术挑战。

市场主要玩家

在云原生数据湖领域，我们先看国内，主要玩家为A云、H云和T云。A云拥有非常完善的大数据产品矩阵，H云则通过低价策略进行市场渗透，T云则通过开源技术栈和开放生态抢占市场。

具体到数据湖存储，A云、H云、T云均采用了对象存储作为湖存储底座，并在对象存储之上提供了多种大数据组件和计算框架集成服务

再放眼国外，主要以AWS S3为基础的数据湖占据绝大多数市场，成为了对象存储领域事实标准，AWS同时提供了丰富的计算和分析生态深度融合，Azure则基于BlobStorage提供了ADLS数据湖存储服务。其中，S3/Azure等国外竞品在数据湖方面走得更快一些，主要优势在生态集成。

	A云	H云	T云	AWS
数据湖方案	JindoFS+OSS	OBS并行文件系统	GooseFS+COS	EMRFS+S3
部署模式	EMR部署私有化部署 DLF Serverless	DLI Serverless	EMR部署私有化部署 DLC Serverless	EMR部署
底层存储支持	OSS HDFS	OBS	COS CHDFS	AWS S3 HDFS
计算引擎支持	Spark、Hive、Impala、Presto、Tez、HBase	Spark、Hive、OpenLookeng（Presto）	Spark、Hive、Impala、Presto、Tez、HBase	Spark、Hive、Impala、Presto
相关特性	基于JindoFS的湖加速、文件系统和元数据操作优化		基于GooseFS的三级加速体系

A云原生数据湖方案

A云原生数据湖架构

数据湖存储层基于OSS，通过JIndoFS实现OSS-HDFS文件系统兼容，实现分布式缓存加速；
通过DLF对元数据进行统一管理和加速，并解决入湖和分析能力；
兼容开放湖格式，包括hudi、iceberg等；
上层支持多计算引擎，通过DW进行数据开发和治理。

A云原生数据湖核心技术架构

核心技术点

JindoFS：模拟文件系统，元数据性能优化。冷热分层
JindoCache：超大规模下热数据缓存，远端数据访问加速
JindoSDK：ObjectStore/DataStream/FileSystem API
湖生态：ETL优化（目录/原子rename，实时Sink等）

T云原生数据湖方案

T云原生数据湖架构

以对象存储COS为底座，通过COSN实现HCFS接口兼容HDFS文件系统
Lakehouse方案以湖格式iceberg为主要技术路线，进一步接入hudi和deltalake中
自研数据湖三层加速体系：GooseFS、元数据加速、COS加速

T云原生数据湖核心技术架构

核心技术点：

COS加速：全SSD存储、热数据读加速、Tbps带宽
元数据加速：文件系统级别元数据操作能力、rename、list操作优化
GooseFS数据加速：Data cache、热数据缓存

下一篇，我将会就基于天翼云弹性存储的云原生数据湖架构方案提出设计和展望。

市场主要玩家

具体到数据湖存储，A云、H云、T云均采用了对象存储作为湖存储底座，并在对象存储之上提供了多种大数据组件和计算框架集成服务

	A云	H云	T云	AWS
数据湖方案	JindoFS+OSS	OBS并行文件系统	GooseFS+COS	EMRFS+S3
部署模式	EMR部署私有化部署 DLF Serverless	DLI Serverless	EMR部署私有化部署 DLC Serverless	EMR部署
底层存储支持	OSS HDFS	OBS	COS CHDFS	AWS S3 HDFS
计算引擎支持	Spark、Hive、Impala、Presto、Tez、HBase	Spark、Hive、OpenLookeng（Presto）	Spark、Hive、Impala、Presto、Tez、HBase	Spark、Hive、Impala、Presto
相关特性	基于JindoFS的湖加速、文件系统和元数据操作优化		基于GooseFS的三级加速体系

A云原生数据湖方案

A云原生数据湖架构

数据湖存储层基于OSS，通过JIndoFS实现OSS-HDFS文件系统兼容，实现分布式缓存加速；
通过DLF对元数据进行统一管理和加速，并解决入湖和分析能力；
兼容开放湖格式，包括hudi、iceberg等；
上层支持多计算引擎，通过DW进行数据开发和治理。

A云原生数据湖核心技术架构

核心技术点

JindoFS：模拟文件系统，元数据性能优化。冷热分层
JindoCache：超大规模下热数据缓存，远端数据访问加速
JindoSDK：ObjectStore/DataStream/FileSystem API
湖生态：ETL优化（目录/原子rename，实时Sink等）

T云原生数据湖方案

T云原生数据湖架构

以对象存储COS为底座，通过COSN实现HCFS接口兼容HDFS文件系统
Lakehouse方案以湖格式iceberg为主要技术路线，进一步接入hudi和deltalake中
自研数据湖三层加速体系：GooseFS、元数据加速、COS加速

T云原生数据湖核心技术架构

核心技术点：

COS加速：全SSD存储、热数据读加速、Tbps带宽
元数据加速：文件系统级别元数据操作能力、rename、list操作优化
GooseFS数据加速：Data cache、热数据缓存

下一篇，我将会就基于天翼云弹性存储的云原生数据湖架构方案提出设计和展望。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

关于云原生存算分离数据湖，你想知道的都在这里（中）

市场主要玩家

A云原生数据湖方案

T云原生数据湖方案

关于云原生存算分离数据湖，你想知道的都在这里（中）

市场主要玩家

A云原生数据湖方案

T云原生数据湖方案

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

关于云原生存算分离数据湖，你想知道的都在这里（中）

市场主要玩家

A云原生数据湖方案

T云原生数据湖方案

关于云原生存算分离数据湖，你想知道的都在这里（中）

市场主要玩家

A云原生数据湖方案

T云原生数据湖方案