具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用
Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。
- 1
- 2
- 3
- 4
- 5
- 6
- 12
具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用
Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。