❄️

ZCappuccino

Coding My Life✨

文献阅读 NLP

Masked Autoencoders Are Scalable Vision Learners

论文来源：CVPR 2022 Oral

mask：掩码
token：在NLP中每一个单词是token，在CV中把图像分割成不重叠的patch就是token

方法

算法流程

对图片切分 patch，随机挑选少部分（比如文中25%）作为网络输入；
输入通过 encoder 得到对应编码后的 encoded patch；
将 encoded patch 还原到对应的原始位置，并在缺失的部分补上 masked patches；
送入 decoder，每个 decoder 预测对应 patch 的图像像素点；
计算预测的像素和原始图片的像素之间 MSE 作为 loss;
取训练完的模型的 encoder 部分作为下游任务的 basemodel 并在下游任务下 finetune。