ABS
挑战1
- vit以往不适合密集预测的任务(语义分割,等等,因为一直在最大窗口进行)
- 时间复杂度过高 (语义分割等等 都是 800x800 1000x1000,即使有16x16patch 也会)
- 所以不去在整张图上计算自注意力,而是在每个窗口内做,这样复杂度会和图大小增加成线性关系(假如图增大x倍,窗口增大x倍,复杂度也是乘x)
- 并且利用局部性(locality)的inductive bias (同一物体不同部位或语义相近的不同物体还是大概率会出现在相邻地方),所以全局计算注意力有点浪费资源 挑战2:
- 如何去生成多尺寸的特征?:卷积net因为有pooling 池化的操作,能增大每个卷积核看到的感受野,使得每次池化后抓住 物体的不同尺寸。 swint也提出类似池化的操作:patch merging ,相邻小patch合成大patch,
Method
- 48=4x4x3 4是