在计算机视觉领域,小样本分类任务始终是极具挑战性的研究方向。传统深度学习模型依赖大规模标注数据,而实际应用中获取充足标注样本往往成本高昂甚至难以实现。小样本分类旨在通过极少量标注样本(如每类仅1-5个样本)实现准确分类,这对模型的泛化能力与特征提取效率提出了严苛要求。近年来,视觉Transformer(Vision Transformer, ViT)凭借其强大的全局特征建模能力,在小样本分类中展现出显著优势。然而,单纯依赖监督学习的ViT仍面临数据稀缺导致的过拟合问题。自监督学习(Self-Supervised Learning, SSL)通过挖掘数据内在结构信息,为模型提供无需标注的预训练信号,成为突破小样本瓶颈的关键技术。本文从全链路优化视角出发,系统探讨如何通过自监督学习优化视觉Transformer的预训练、微调及域适配过程,构建高效的小样本分类机制。