mask:掩码
token:在NLP中每一个单词是token,在CV中把图像分割成不重叠的patch就是token
方法
算法流程
- 对图片切分 patch, 随机挑选少部分(比如文中25%)作为网络输入;
- 输入通过 encoder 得到对应编码后的 encoded patch;
- 将 encoded patch 还原到对应的原始位置,并在缺失的部分补上 masked patches;
- 送入 decoder, 每个 decoder 预测对应 patch 的图像像素点;
- 计算预测的像素和原始图片的像素之间 MSE 作为 loss;
- 取训练完的模型的 encoder 部分作为下游任务的 basemodel 并在下游任务下 finetune。