文章目录 摘要 1、简介 2、相关工作 3、方法论 3.1、初步 3.2、Block设计 3.3、宏观设计 3.4、微观设计 3.5、网络架构 4、实验 4.1、图像分类 4.2、目标检测与实例分割 4.3、语义分割 5、结论 A. RepViTs架构 一些名词的理解 mobile-friendliness Early Convolutions 摘要 https://arxiv.org/pdf/2307.09283.pdf 近年来,与轻量级卷积神经网络(CNN)相比,轻量级视觉Transformers(ViTs)在资源受限的移动设备上表现出了更高的性