一、主流技术:数据格式与计算引擎的演进
传统数据湖依赖Parquet列式存储和Iceberg表格式,设计初衷是服务批处理SQL分析,面对AI场景的随机读取、高吞吐向量检索和多模态混合查询时,I/O瓶颈显著。当前主流技术围绕以下方向突破:
1. 新一代AI原生存储格式:Lance
Lance是专为AI工作负载设计的列式数据格式,核心创新包括:
- 统一存储:将向量嵌入、媒体引用(指向视频/音频/图像的指针)和结构化元数据统一在同一模式中,消除对独立向量数据库的依赖。
- 高性能随机访问:相对Parquet,随机读取速度提升3-35倍,向量查询速度提升10倍,确保GPU训练时不会因数据供给不足而空闲。
- 数据可变性支持:利用Delta式日志和分层磁盘布局,支持流式插入、列追加和删除,并提供快照版本控制和时间旅行查询,保障模型训练的复现性。
- 零拷贝架构:LanceDB将Lance格式提升为多模态湖仓,实现原始资产与嵌入向量的共置,支持训练和服务访问同一存储而无需复制。
Lance同时涵盖列式文件格式、表格式和目录定义三层规范,使同一Lance表可注册到不同目录服务并被多计算引擎访问。
2. 流式数据湖格式:Apache Paimon的列分离与Blob方案
Paimon面向AI场景的演进聚焦两个核心问题:结构化特征的动态列变更和非结构化数据的高效管理。
- 列分离架构:引入“全局唯一且连续的Row ID”,新增特征列时仅需写入包含该列与对应Row ID的新文件,无需重写历史数据。查询时引擎按Row ID自动对齐合并,降低列变更存储成本。
- Blob数据类型:将图像、视频等非结构化数据以独立文件物理分离存储,查询结构化字段时Blob文件不参与I/O;通过blob-as-descriptor机制按需流式加载超大文件,避免内存溢出。
3. 分布式计算引擎:Ray的统一调度
Ray作为AI工作负载的分布式计算底座,被多个云厂商集成,核心能力包括:
- 异构资源混合调度:在同一Pipeline中原生支持CPU和GPU/NPU的混合调度,无需数据落盘。
- 容错与断点续跑:通过Checkpoint机制支持长周期任务失败后断点续跑,千万级数据回刷任务无需从头执行。
- 标准化Pipeline:将复杂的多模态数据处理链路抽象为标准化的声明式接口,将开发时间从数周缩短至数天。
4. 开源生态:PARK栈与多模态数据管理平台
业界逐渐形成以PyTorch + AI前沿模型 + Ray + Kubernetes为核心的PARK计算栈,Lance/LanceDB作为其下的统一存储层。此外,开源领域还涌现出:
Deep Lake 4.0:为PyTorch/TensorFlow提供零拷贝数据加载器,支持流式训练和数据集版本控制。
Pixeltable:将AI管道声明式定义为数据库模式内的“计算列”,自动化依赖跟踪和增量更新。
Daft + Unity Catalog:基于Rust的分布式查询引擎,通过动态流式执行解决数据膨胀挑战,管理GPU资源调度。
二、核心场景问题
1. 大模型训练的“数据饥饿”与零拷贝供给
传统数据湖采用Parquet/ORC等面向顺序扫描的列式格式,而大模型训练需要高频随机采样。这种访问模式的失配导致I/O放大,GPU计算单元因数据供给不足而空转。同时,原始语料与训练所需的文本嵌入、图像嵌入分离存储,造成额外数据拷贝开销。
采用Lance等AI原生列式格式,利用更小粒度的Row Group索引与SIMD加速的向量化读取,将随机访问延迟降低至Parquet的1/30,使数据管线吞吐量与GPU算力对齐。
在存储层实现多模态共置——将原始图像/音频字节、清洗后的文本以及通过CLIP/Whisper等模型预计算的嵌入向量,以统一Schema存放于同一文件组,训练任务可直接读取而不需要跨系统拷贝,实现Zero-copy Training。
结合Ray等分布式框架对CPU(数据预处理)与GPU/HiFast(训练)进行异构资源混合调度,使预处理与训练两个阶段在流水线上重叠执行。
2. RAG底座:混合检索与增量索引
RAG管道的检索阶段通常面临三个工程困境。其一,仅靠向量相似度召回无法满足精确匹配、范围筛选等需求,需要多系统混合查询;其二,嵌入模型迭代时全量重建向量索引成本极高;其三,多模态场景下文本、图像、表格等需要统一检索入口。
将向量索引与倒排索引、标量统计信息统一纳入湖仓的索引层,使得“语义相似过滤条件”的混合查询,可以在同一执行计划内完成,无需在不同引擎间拼接结果。
利用数据湖的Snapshot Isolation机制,在升级嵌入模型时仅对Diff部分进行增量重嵌入,并通过版本元数据追踪Chunk的变化历史,避免全库重索引。
将多模态数据(文档中的文字、内嵌图片、表格)统一解析、切片并作为独立Chunk进入索引,使同一个语义查询可以跨模态返回最相关片段。
3. 多跳推理:结构化与非结构化数据的联合计算
许多分析任务不能单靠一次检索完成,需要“先查结构化数据库,再根据字段结果去检索非结构化内容”或反之。传统架构中,这一联合计算需在应用层分步完成,延迟高且事务性无法保证。
通过联邦查询引擎提供SQL与向量检索的联合算子。例如,一个查询计划可先扫描事实表过滤出目标行,再依据行中的外键去检索同一条记录的对话音频嵌入,执行语义比对。
结合Text-to-SQL与Agent框架,将对自然语言问题解析为DAG,在每个节点调用相应的语义检索函数或SQL执行器,最终由Agent合并结果后交给LLM生成答案。
当查询涉及递归推理时,利用湖仓中的物化中间视图来缓存中间检索结果,降低重复计算量。
4. 长视频解构与跨模态时序索引
视频文件是多模态的复合体,包含视觉帧、音频流、字幕文本等。传统分析管线需将视频先离线解析为各模态的独立文件,再分通道处理,带来严重的工程复杂度、I/O冗余与时间对齐难题。
将视频的解构管线标准化为DAG,通过Ray统一调度抽帧、OCR、ASR、场景检测、人脸聚类等UDF,所有产出自动注入湖仓并建立帧级时间戳索引。
构建跨模态时序索引,将每一帧对应的视觉嵌入、同期ASR文本嵌入以及上下文时序偏移量存入同一索引段,使得查询能直接表达时空-语义组合谓词。
通过物化特定时间窗口下的多模态索引段,加速对热点视频片段的重复查询,支撑内容审核、侵权检测和交互式视频编辑等低延迟应用。
上述场景的技术本质,可以归结为多模态数据湖在三个维度上的跨越:
- 存储层从顺序扫描优化转向随机访问与多模态共置;
- 索引层从标量索引扩展为向量、倒排、时序混合索引;
- 计算层从批处理演进为支持Agent的多步骤自适应调度。
正是这三层架构的耦合演进,使得多模态数据湖能够承载从训练到推理、从检索到分析的完整AI工作流。