Lecture 4：自注意力机制（Self Attention）

Lecture 4：自注意力机制（Self-Attention）

Lectured by HUNG-YI LEE (李宏毅)
Recorded by Yusheng zhao（yszhao0717@gmail.com）

引入

致力于解决输入为一组向量的深度学习任务。
例如👇）——作业一自然语言处理
作业二——声音讯息👇
作业三——图👇，每个节点都可以是一个向量，包含了人物的社交信息
分子也可以看作“Graph”：（这里化学元素每个原子用one-hot表示）
输出的形式多样：
每个vector各自输出一个label：比方说文字处理中的词性标注、语音音素分类、社交网络标签
一整个sequence输出一个label：比方说：情感分析、语者辨认、给一个graph输出一个label
模型自己决定输出label的数量——seq2seq任务，例如：翻译、完整的语音辩识

模型一：Sequence Labeling

即上文输入和输出数目一样多的情形。

注意到，对于单个输入vector要关注它的上下文信息。但是，以某个vector为中心，为了cover整个sequence，开一个一定尺寸的窗口输入全连接层中——参数巨多而且有可能overfitting。Self-attention被用来化解这个困难。

FC = Fully Connected Layer

Self-attention考虑到整个sequence的信息，有多少输入self-attention就有多少输出。模型中经常使用FC和Self-attention交替使用。Attention is all you need

$b^1$ 为例：

$a^1$ $a^1$ $a^1$ $a^1$ $a^1$ $\alpha$ 表示
这个Self-attention的module怎样自动决定两个向量的相关性？以下给出计算两个向量相关性的模组。
Dot-product $W^q$ $W^k$ $q$ $k$ $\alpha = q·k$ 。
Additive $W^q$ $W^k$ inner-product $q$ $k$ $tanh$ $\alpha$ $W$ 是随机初始化的，然后训练出来的）
在本文中用到的方法默认为左边的Dot-product
Self-attention $a^1$ $a^2$ $a^3$ $a^4$ $\alpha$ ——attention score。求法如下：

自己与自己计算关联性：

$\alpha$ $Softmax$ 处理：

$Softmax$ ：
$\alpha'_{1,i} = \frac{exp(\alpha_{1,i})} {\sum_j\exp(\alpha_{1,j})}$

不一定要用Softmax，只要是激活函数，有人用Relu效果也很好。

$\alpha'$ 去抽取出整个sequence中比较重要的咨询。
$a^1$ $W^v$ $[v^1,v^2,v^3,v^4]$ $v$ $\alpha'$ ，然后再把它们加起来。
$b^1 = \sum_i\alpha'_{1,i}v^i$

$v$ $a^2$ $b_1$ $v^2$ 。

相似度计算方法

$q$ $k$ ）的分数（相似度），常用方法有：

$s(q,k)=q^Tk$
矩阵相乘
$s(q,k)=\Large \frac{q^Tk}{||q||·||k||}$
$q$ $k$ $s(q,k)=W[q;k]$
$s(q,k)=v_a^T\tanh(W_q+U_k)$

总结

Self-attention $W^q,W^k,W^v$ 是network的参数，是学习（learn）得来的，可以看作是带有权重的，以下认为是self-attention的矩阵运算。

q^i = W^qa^i \\ k^i = W^ka^i \\ v^i = W^va^i

$W^q,W^k,W^v$ 矩阵。

然后为了得到得分，计算内积👇

同理👇

$softmax$ 不是唯一的选项，也可以用其他激活函数。

接下来👇

这一串操作全是矩阵运算，不用加循环体，方便编程。把上述过程可以精简为👇

$A'$ 称之为Attention MatrixSelf-attention $I$ $O$ $W^q,W^k,W^v$ 是未知的，需要透过训练集（training data）学习得到。

self-attention进阶版——Multi-head Self-attention

为什么我们需要多一点的head呢？——关系中蕴含着不同种类的关联性，以下 2-head为例：

$q,k,v$ $q^1$ $k^1,v^1$ 运算。

缺陷——self-attention少了关于位置（上下文）的资讯，因此一下介绍相关的完善方法。

Positional Encoding——把位置的咨询塞进self-attention

$e^i$ （为每一个位置设定一个vector，不用的位置就有专属的一个vector）
$e^i$ $a^i$ 上：
这样子的Positional Encoding是hand-crafted的，人设的问题包括：可能sequence的长度超过人设的范围。在Attention is all you need中这个代表位置的vector是透过一个规则产生的：一个神奇的sin、cos的function
Positional Encoding任然是一个尚待研究的问题，可以创造一个新的产生办法，可以learn from data

这篇论文讨论了Positonal Encoding的生成方法。

Many applications of Self-attetntion

Transformer
BERT
Transformer-Transducer $L$ Attention Matrix $L×L$ 次的inner product，算力和memory的压力很大。Truncated Self-attention被设计用来在只看一个小的范围（范围由人设定）而非整句话，以加快运算速度。

self-attention for Image：
一张图片可以看作是一个vector的set
$5×10$ 的vectors set。self-attention处理图片的工作的例子：Self-Attention GAN、DEtection Transformer(DETR)
self-attention for Graph：
在Graph里，每个node看作一个向量（保存有相关的信息）；另外，graph里还有edge的信息。哪些node相连——哪些node有关联性：因此，邻接矩阵表示了在做self-attention的计算时，只需要计算相连的node之间的关联性就好了。
没有相连的nodes之间就不用计算attention score了，可设置为0，因为这些可能是domain knowledge暗示下的这种nodes间没有关系。
由此，提出了一个很fancy的network：Graph Neural Network (GNN)图神经网络。老师表示水很深，把握不住，感兴趣可以另外自行学习。

Self-attention和CNN的比较

CNN可以看作是一种简化版的Self-attention，它只关注于receptive field；而self-attention则关注整张图像。self-attention看作是复杂化的CNN，用attention找到有关联性的pixel，仿佛是network自动learn且决定自己的“receptive field”（不再是人工划定）

On the Relationship between Self-Attention and Convolutional Layers用数学的方式严谨的证明CNN是self-attention的一个特例。self-attention设定特定的参数就可以做到和CNN一样的事情。

由于self-attention相较于CNN更加flexible，为了避免过拟合，需要更多的数据才能达到更好的效果。而CNN在训练资料较少时表现相对较好，因为随着数据增多，CNN并没有得到更多好处。

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale $16×16$ 个patch，把每个patch当作一个word处理。（当然这个数据集量一般研究者很难搜集到，这篇文章来自Google）

Conformer：一个CNN和Self-attention的混合体。

Self-attention和RNN的比较

RNN：Recurrent Neuroal Network（循环神经网络） $\Rightarrow$ $\Rightarrow$ $\Rightarrow$ prediction，对于第二个RNN需要input第一个吐出来的东西以及input第二个vector再output东西，以此类推，如下图👇

当然，RNN可以是双向的。两者不同的地方：对于RNN而言，距离较远的两个vector，如果前者不被memory一直记忆到输入处理后者的网络，两个向量很难产生关联性；而再attention里，输入向量是平行的，输出向量是平行的，只要match到，就可以产生任意两个向量的关联性。——天涯若比邻，aha

所以目前来看attention优于RNN，许多RNN架构都改为attention了。进一步了解两者关系：Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention，attention加一点东西就会变成RNN。

延展

Self-attention有非常多的变形：Long Range Arena: A Benchmark for Efficient Transformers、Efficient Transformers: A Survey

由于self-attention最大的问题就是运算量大，所以未来相关的问题很多关于如何变形以减少运算量，提高运算速度。如何使attention越来越好，也是未来尚待研究的问题。