视频语义分割是对视频帧的每个像素进行归类,划分为两块及以上具有相应语义类别的像素区域,获取视频中感兴趣目标的像素级精度位置信息。视频语义分割是当前比较火热的技术,在众多视频分析领域发挥着重要作用。与图像语义分割任务相比,视频场景下的语义分割任务往往对模型的解析精度与推理速度提出了更高的要求。为提高视频语义分割的速度和精度,研究者开发了一系列基于深度学习的视频语义分割算法,其中不少研究者利用视频数据的时空特征融合来提高分割准确率,即利用视频连续帧之间特有的时间上下文信息,使网络模型能够辨别视频帧之间具有相同空间特征的不同分割目标或者补偿当前帧分割不准的情况,在一定程度上起到特征增强的作用。