self-attention因为Transformer模型而大放异彩,提出Transformer模型的那篇文章《Attention is all you need》的文章题目也是透露出self-attention的强大。不需要循环神经网络,也是能够解决循环神经网络处理的问题,而且性能更优。在后面的博文中,我会详解这篇文章。这里呢,我们先大概感受一下self-attention。下图是Transformer结构。左边部分是编码器(BERT结构),右边部分是解码器(GPT, PGT-2结构)。当然这个是最小单元,真实结构中是多种这样的单元的组合。