searchusermenu
  • 发布文章
  • 消息中心
多模态文本视频检索
1 文章24 阅读1 订阅
全部 视频直播 1视频监控 1AI 1
多模态文本视频检索
1 文章24 阅读1 订阅
全部
  • Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。
    l****n
    2024-04-17
    24
    1
全部
  • Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。
  • 没有更多了