在我们的生活中,无时无刻存在很多周期性运动,比如太阳系中的行星运动、地球的四季变化,还有人体的心跳等等。这些周期性运动通常可以用物理建模进行解释,或者用传感器进行记录。在计算机视觉领域,重复动作检测也有很重要的作用,比如在运动领域,对运动员的动作进行计数有助于规划他们的训练,尽管现在可以通过一些传感器,比如运动手环,进行动作的计数,但是这些方式通常都要在运动员身上固定某些设备,或多或少对运动员造成一定影响。而基于视觉与深度学习的方法具有非侵入性,只需要一个摄像头即可得出人物的动作数量。同时重复动作计数的技术也可以用于其他视频方面的应用,如行人计数等。
尽管如此,计算机视觉中的重复动作计数研究不是很多。先前的论文往往只计数短视频中的重复动作,例如从Kinetics数据集中获取的一些简单视频。然而,这些视频缺乏一些真实场景,限制了该方法在更真实场景中的应用,原因包括视频长度单一及标注不够精细。大部分动作计数相关的数据集只包含时长较短的视频,通常在1分钟以内。以及这些数据集中的动作大多是连贯的。但是在真实应用中,模型一般都会部署到长视频上,让其一直计数。同时动作也不一定连贯,运动员可能做几个动作之后由于疲劳动作会放缓,或者因为休息等原因而中断。这些异常情况都会导致算法不能获得最佳性能,影响其在真实场景中的泛化能力。对于标注方面,目前的数据集仅对一个视频标记了其动作总数,虽然模型最终的输出就是一个动作的数字,但是这种标注并不够精细,模型只能在训练和预测的过程中输出一个数字,对视频其中的内容不能获得准确的评估。也就是说动作的数量可能与真实是接近的,但是其实模型并不能学习到每个动作的周期性。这样一旦推广到复杂的场景,如长视频或动作具有中断不连贯的情况,算法就可能失效。
为了解决以上问题,TransRAC制作了一个大型数据集,这些视频长度跨度很大,同时视频中可能出现不连贯的情况。为了模型能够更加准确学习到视频的内容,数据集中进行了详细的标注,其标注了视频中每一个动作的开始和结束的时间。