🪴 PP's digital garden

Search

❯

001 paper_reading

❯

004 SwinT

Dec 27, 20242 min read

ABS

挑战1

vit以往不适合密集预测的任务（语义分割，等等，因为一直在最大窗口进行）
时间复杂度过高（语义分割等等都是 800x800 1000x1000,即使有16x16patch 也会）
所以不去在整张图上计算自注意力，而是在每个窗口内做，这样复杂度会和图大小增加成线性关系（假如图增大x倍，窗口增大x倍，复杂度也是乘x)
并且利用局部性（locality）的inductive bias (同一物体不同部位或语义相近的不同物体还是大概率会出现在相邻地方)，所以全局计算注意力有点浪费资源挑战2：
如何去生成多尺寸的特征？：卷积net因为有pooling 池化的操作，能增大每个卷积核看到的感受野，使得每次池化后抓住物体的不同尺寸。 swint也提出类似池化的操作：patch merging ,相邻小patch合成大patch,

Method

48=4x4x3 4是

Graph View

ABS
Method

Backlinks

No backlinks found

Created with Quartz v4.2.3 © 2024

GitHub
Discord Community