在介绍transformer之前,必须先了解self-attention








关于这个图,理解的理解,不理解的还是不理解

3*224*224经过768个16*16的卷积,输出768*14*14
将输出flatten,768*196(14*14)
调整通道196*768
添加class_num(分类信息)1*768,拼接196*768成197*768
添加位置信息pos,add(shape还是197*768)


我的理解就是encoder的输出,如下图所示
encoder从BOS(一个特殊的字符)开始,输出潮水
decoder从BOS+潮水作为encoder的outputs,但是是decoder的inputs
重复几遍,知道潮水退了结束

看看里面的结构,都是一些block的堆叠,也没有新的OP,我的感觉是transformer还是做的和CNN的工作是类似的,但是transformer的并行效果更好,同时这些计算密集型的OP,后续的性能优化也是一个方向(量化)
下一篇:Singleton模式