transformer大家都知道,在nlp领域已经用的很成熟了,基于此发展出了GPT和BERT两种方式的预训练语言模型,为NLP各项下游任务带来了显著的性能提升。那transformer这么有效好用的方法是否适用于cv领域呢?答案是肯定的,ViT将标准的transformer结构运用到图像识别任务上取得了很好的性能,并证明了在大量数据进行预训练后,再迁移到中小型数据集(ImageNet, CIFAR-100, VTAB等),ViT能够取得和最高水平卷积神经网络类似的结果,同时大幅减少训练中的计算资源消耗。