具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用-天翼云开发者社区

前言：

文本视频检索：文本视频检索是一种多模态检索技术，它通过输入文本描述来查找与之最匹配的视频内容。这一技术依赖于在大规模的视频-文本数据集上进行深度学习训练，目的是实现视频内容与语言描述之间的精确对齐。通过这种训练，模型学会如何解析视频中的视觉信息并将其与文本描述相匹配，从而在庞大的视频库中快速准确地找到用户通过文本所指定的视频内容。此技术在信息检索、内容管理以及多媒体应用中具有广泛的应用前景，尤其是在提高搜索效率和精度方面展现出重要价值。

目前文本视频检索的SOTA方法主要是端到端学习模式，如ClipBERT,CLIP4Clip等等。利用了端到端学习的优势，通过减少预处理步骤和直接从原始输入视频和文本学习，端到端的学习模式有效提升了视频文本理解和检索的效率和准确度。但由于视频和文本之间的结构和内容的异质性，以往的基于clip的模型在训练阶段容易出现过拟合，导致检索性能相对较差。

CLIP4Clip模型：

CLIP4Clip模型使用像素级的方法对模型进行预训练，即使用预训练CLIP模型从原始视频中学习，将知识从图片文本预训练中迁移到视频本文检索任务中。在CLIP4Clip模型中，作者意识到单个图像远远不足以用于视频文本检索的视频编码。如ClipBERT模型，采用了稀疏采样策略，仅在每个训练步骤中从视频中稀疏地采样一个或几个短片段进行特征提取，虽然可以使端到端预训练成为可能，解决视频文本检索任务，但视频编码器特征提取的效果有待提高。在CLIP4Clip模型中，为了获得视频表示，首先采用平均采样从视频片段中提取较为连续的图片帧，然后通过视频编码器对其进行编码，以获得一系列特征。此外，考虑到二维线性模型忽略了帧之间的时间信息，为了增强时间特征提取，在视频编码器中，使用了3D线性投影，以以[t×h×w]的核作为线性的三维卷积代替二维线性中[h×w]的核，其中t、h和w分别为时间、高度和宽度。

CLIP模型的编码器主要采用Transformer结构，其优点是能处理任意长度的输入并建立全局关系。但其注意力机制在处理长序列时显存消耗大，因创建权重矩阵比较各token间相关性。虽训练时注意力机制Attention计算可并行加速，推理时需为新token重算注意力，序列长度，需计算量，随长度平方增长。CLIP4Clip模型中，输入向量维度增大使Transformer计算量加倍，特别是视频特征提取时重算序列降低效率，成为其主要瓶颈，如图1。

图1 自注意力计矩阵

矩阵乘法的一种计算方式是使用第一个矩阵的每一行与第二个矩阵的每一列做点乘。我们需要拿第一个矩阵的每一行去与第二个矩阵的每一列做点乘，所以总共就需要次点乘。而每次点乘又需要次乘法，所以总复杂度就为。

RNN模型：

RNN在生成输出时依赖于前一隐藏状态和当前输入，无需重算以往状态，与Transformer不同。这一结构使RNN可快速推理，理论上上下文长度可无限扩展，且内存使用稳定。然而，RNN倾向于遗忘旧信息，因为它仅考虑上一状态。此外，RNN的顺序性限制了训练的并行性。因此，对于视频长序列特征提取，寻找一种能并行训练、记忆前情且推理时间与序列长度成线性关系的模型十分关键，RNN结构如图2所示。

图2 RNN结构

Mamba模型：

2024年2月推出的Mamba模型，是基于状态空间模型（SSM）的新型AI技术，有效解决了Transformer在长序列数据处理上的效率问题。Mamba通过引入受控制理论启发的SSM替代传统注意力机制，保留MLP风格的计算，提升了序列数据处理能力。其优异的长序列处理、快速推理及线性扩展性，使其成为长序列视频处理的理想选择。

Mamba模型可选性：

状态空间模型 SSM包含两个部分：状态更新方程和输出方程。通过三个连续参数矩阵A、B和C将输入信号()，隐藏状态()和输出信号()三者进行互联。

这些方程形成一个递归，类似于RNN网络。在每个步骤t中，我们将前一个时间步ht−1的隐藏状态与当前输入相结合，以创建新的隐藏状态。注意，在SSM中，我们的离散参数AB和C是恒定的，SSM没有选择性，所以它被迫以完全相同的方式处理输入的所有部分，对于输入视频而言，SSM会花费相同的“精力”来处理视频的每一帧，这点实际上与Transformer建立输入视频的全局关系是十分相似的。对于SSM，我们可以预先计算该内核、保存，并将其与输入x相乘。我们把上述离散参数AB和C表示为卷积核的形式。

然而，Mamba为了有选择地压缩信息，让模型的参数依赖于输入。在Mamba中，SSM 的矩阵 A、B、C 依赖于输入数据，从而实现了选择性。这意味着模型可以根据当前的输入动态地调整其状态，选择性地传播或忽略信息。Mamba的可选性表现如下：

通过设置模型参数为输入函数，Mamba能更有效地“聚焦”当前任务中更关键的输入部分。

（2）Mamba 高效实现：

Mamba 作者采用了一种称为硬件感知的算法，实际上就是用三种经典技术来解决这个问题：内核融合（kernel fusion）、并行扫描（parallel scan）和重计算（recomputation）。Mamba结构如图3所示：

图3 Mamba的结构

作者将先前的 SSM 架构设计与 Transformers 的 MLP 模块合并为一个模块，集成到一个简化的端到端神经网络架构中，该架构没有注意力，甚至没有 MLP 块，简化了先前的深度序列模型架构，形成了一种包含选择性状态空间的简单、同质的架构设计（Mamba）。

Mamba模型是一个创新的线性时间序列建模方法，巧妙地结合了递归神经网络（RNN）和卷积神经网络（CNN）的特点，解决了处理长序列时的计算效率问题。它通过状态空间模型（SSM）的框架，实现了RNN的逐步处理能力和CNN的全局信息处理能力的融合。在训练阶段，Mamba使用卷积模式来一次性处理整个输入序列，而在推理阶段则采用递归模式，逐步处理输入，这样的设计使得Mamba既能充分利用CNN的高效并行处理能力，又能保持RNN在序列数据处理上的灵活性。

Mamba模型的主要创新之处在于加入了一个选择机制，该机制让SSM参数根据输入变化，使模型能够根据不同的输入动态调整其响应方式。这与RNN中的门控机制类似，但是在SSM的结构中，它为应用提供了更多的可能性。通过这种方法，Mamba模型能有效地筛选掉无关信息，同时保留并强化对任务有关的信息，从而提升了处理长序列数据的能力。

为了提高计算效率，Mamba模型采纳了硬件感知的算法设计，尤其是利用GPU的内存层级结构来加快扫描操作的速度并减少内存需求。这种策略结合了RNN的递归计算优势与CNN的并行处理能力，使得Mamba在处理长序列数据方面更为高效。

在架构设计方面，Mamba简化了传统的SSM结构，通过整合H3和MLP模块，创建了一个均匀堆叠的架构。这种设计不仅简化了模型构造，还增强了模型的灵活性和计算效率。

最后我们总结一下各个模型的核心特点，如表1所示：

模型	对信息的压缩程度	训练的效率	推理的效率
Transformer	对每个历史记录都进行处理，不压缩	训练消耗算力大	效率较低，尤其处理长序列向量
RNN	随着时间推移，RNN会遗忘之前的信息	无法进行并行训练	推理时，只参考一个时间步，推理高效
CNN		训练效率较高，可以并行训练
SSM	压缩每一个历史记录		矩阵参数是固定的，无法针对输入向量做专门性推理
Mamba	选择性关注必须关注的，过滤掉可以忽略的	Mamba每次参考前面所有内容的一个概括，兼备训练、推理的效率

个人对利用Mamba模型做选择性时序建模视频文本检索大模型的思考：

可以把Mamba模型替换Clip4Clip视频特征提取中的Transformer架构。虽然Transformer模型由于其高效的自注意力机制，在处理序列数据，尤其是文本和静态图像上展现出了显著的能力，但在处理视频这种高维度、时空结合的复杂数据时，Mamba架构可能在以下方面表现更优：

（1）时空特性的专门处理

优化的时空特征提取：Mamba架构通过结合卷积网络和RNN的设计，可以更自然地处理视频数据中的时空信息。卷积层专注于捕捉每一帧内的空间特征，而RNN则处理帧与帧之间的时间序列关系。这种结构设计使得Mamba架构能够更加高效和直接地提取视频内容中的时空特性。

（2）计算效率和资源需求

Transformer模型建立了所有向量之间的联系，通常需要大量的计算资源。在处理视频数据时，为了更好地捕捉帧之间的时间关系，Clip4Clip模型将输入从传统的二维形式扩展到三维，这显著增加了随时间处理的数据量。相较之下，Mamba架构通过巧妙地在局部（通过卷积操作）和全局（利用RNN处理）处理之间找到平衡。这种方法能在不增加时间维度计算的情况下，有效地建立大规模视频数据中特征间的时间关系，极大地节约了计算资源。

（3）动态关注机制

Mamba架构通过采用选择性参数化的稀疏自注意力机制（SSM），对输入向量分配不同的关注权重，从而能够更加精确和高效地捕捉视频内容中的关键帧或动态。这一处理方式虽然与Transformer模型通过自注意力机制为不同向量特征赋予不同权重以表征其重要性的做法相似，但Mamba架构的动态调整关注点机制，在处理视频数据时，能更有效地识别并强调重要信息。具体而言，虽然Transformer模型通过自注意力计算为每个向量特征分配权重，突出向量的重要性，但这种方法需要对所有向量特征进行计算。随着向量数量的增加，所需的计算量以平方数速度膨胀。相比之下，Mamba架构的SSM通过动态调整参数，直接对向量进行过滤，优先处理与当前帧邻近的图片帧（赋予较大权重），而对于距离较远的帧则分配较小的权重。这种方法不仅降低了计算复杂度，还提高了处理速度和精度，尤其是在识别视频序列中的时序关系和关键内容方面表现出更高的效率。通过这样的优化，Mamba架构在处理大规模视频数据时，能够更加聚焦于关键信息，减少不必要的计算，从而大幅提升特征提取的效率和精度。

总的来说，虽然Transformer模型因其灵活性和强大的处理能力而广泛应用于多种任务，Mamba架构在处理具有强时空关联特性的视频数据时，通过其特定的结构优化和算法设计，可能在视频特征提取的准确性、计算效率以及模型复杂度管理等方面提供更加显著的优势。

总结：

综合考虑，Mamba模型以其出色的效率和对时序信息建模的强大能力，显著优于Transformer模型，尤其适合于视频内容的特征提取任务。尽管Mamba模型相对较新，在多模态视频检索领域的应用尚处于初步阶段，将Mamba架构应用于文本和视频多模态检索的尝试具有重要的科研价值。这不仅证明了Mamba模型在理解和处理复杂视频数据方面的潜力，也为后续的研究提供了新的方向和思路，值得在未来的工作中进一步探索和深化。

前言：

CLIP4Clip模型：

图1 自注意力计矩阵

RNN模型：

图2 RNN结构

Mamba模型：

Mamba模型可选性：

状态空间模型 SSM包含两个部分：状态更新方程和输出方程。通过三个连续参数矩阵A、B和C将输入信号()，隐藏状态()和输出信号()三者进行互联。

通过设置模型参数为输入函数，Mamba能更有效地“聚焦”当前任务中更关键的输入部分。

（2）Mamba 高效实现：

图3 Mamba的结构

最后我们总结一下各个模型的核心特点，如表1所示：

模型	对信息的压缩程度	训练的效率	推理的效率
Transformer	对每个历史记录都进行处理，不压缩	训练消耗算力大	效率较低，尤其处理长序列向量
RNN	随着时间推移，RNN会遗忘之前的信息	无法进行并行训练	推理时，只参考一个时间步，推理高效
CNN		训练效率较高，可以并行训练
SSM	压缩每一个历史记录		矩阵参数是固定的，无法针对输入向量做专门性推理
Mamba	选择性关注必须关注的，过滤掉可以忽略的	Mamba每次参考前面所有内容的一个概括，兼备训练、推理的效率

个人对利用Mamba模型做选择性时序建模视频文本检索大模型的思考：

（1）时空特性的专门处理

（2）计算效率和资源需求

（3）动态关注机制

总结：

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用

具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用

具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用