开发者
天翼云开发者社区
关键词:

具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用

Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。

人脸检测模型全面测评

SCRFD人脸检测(Sample and Computation Redistribution for Efficient Face Detection)通过训练数据采样和计算分布策略,旨在提高人脸检测的效率,主要目标是低延迟、低成本和高准确度。本文对SCRFD-10g模型进行了优化和全面评测,包括在WIDER FACE的Easy/Medium/Hard条件下的准确率评估,不同尺寸人脸框的检测精度,口罩遮挡下的人脸检测,不同光照和分辨率条件下的表现,关键点检测精度,不同得分阈值对准确度的影响,以及低质量图片下的人脸检测效果。全面分析SCRFD-10g模型,评估其部署和应用潜力。

共 2 条
  • 1
前往
没有更多了

暂未填写公司和职称

暂未填写个人简介

暂未填写技能专长

暂未填写毕业院校和专业

共发表过 2 篇文章

文章获得 2 次赞同

文章被浏览 106 次

获得 0 人关注

暂未获得荣誉

共发表过 2 篇文章
文章获得 2 次赞同
获得 0 人关注
文章被浏览 106 次
全部文章(0)
关键词:

具有选择状态空间的线性时间序列建模Mamba模型在多模态文本视频检索的应用

Mamba模型融合了CNN的并行处理优势和RNN的长期记忆功能,有效改善了Transformer在长序列处理上的不足。与Transformer相比,Mamba更擅长提取视频特征和构建帧间的全局联系。虽然Mamba模型较新,在多模态视频检索领域的应用仍处于初步探索阶段,但将其应用于文本和视频的多模态检索具有显著的科研潜力。本研究基于文本视频检索的大模型CLIP4clip,探索使用Mamba模型替换CLIP模型中的Transformer架构,目的是对输入向量进行更有效的信息建模。这一尝试不仅展示了Mamba模型的实用性,也为未来的研究方向提供了新的视角。

人脸检测模型全面测评

SCRFD人脸检测(Sample and Computation Redistribution for Efficient Face Detection)通过训练数据采样和计算分布策略,旨在提高人脸检测的效率,主要目标是低延迟、低成本和高准确度。本文对SCRFD-10g模型进行了优化和全面评测,包括在WIDER FACE的Easy/Medium/Hard条件下的准确率评估,不同尺寸人脸框的检测精度,口罩遮挡下的人脸检测,不同光照和分辨率条件下的表现,关键点检测精度,不同得分阈值对准确度的影响,以及低质量图片下的人脸检测效果。全面分析SCRFD-10g模型,评估其部署和应用潜力。

共 2 条
  • 1
前往
没有更多了