Transformer代码阅读与问题记录 -天翼云开发者社区

前置学习：

论文："Attention is All You Need"
论文精度视频：from bilibili沐神：Transformer论文逐段精读【论文精读】
Transformer原理解析参考：*****://mp.weixin.qq.com/s/hn4EMcVJuBSjfGxJ_qM3Tw?from=industrynews&version=4.1.16.6007&platform=win
Transformer网络结构图：

代码：*****://github.com/jadore801120/attention-is-all-you-need-pytorch

代码学习

Masked

代码文件：transformer/Models.py
代码：

# 生成序列的填充掩码：将序列中的填充部分标记为0，非填充部分标记为1
def get_pad_mask(seq, pad_idx):
    # (batch_size, seq_len)变为(batch_size, 1, seq_len)
    return (seq != pad_idx).unsqueeze(-2)

# 生成后续信息掩码，屏蔽序列中当前位置之后的信息
def get_subsequent_mask(seq):
    ''' For masking out the subsequent info. '''
    sz_b, len_s = seq.size()
    #  torch.triu上三角矩阵，diagonal=1表示生成的上三角矩阵，保留主对角线上方一条对角线及以上的元素
    subsequent_mask = (1 - torch.triu(
        torch.ones((1, len_s, len_s), device=seq.device), diagonal=1)).bool()
    return subsequent_mask

原理：使attention只会attend on已经产生的sequence，对于未知的seqence无法做attention
后续信息掩码应用在：Decoder的Masked Multi-Head Self-attention中

问题：

Transormer中掩码原理

Transformer中，有两种常见的mask，padding mask（填充掩码）和attention mask（注意力掩码）

填充掩码主要解决序列长短不一致的问题，通过将填充位置标记为0，实现对填充位置的计算。
注意力掩码屏蔽不需要关注的位置，将其对应的注意力权重设置为一个很小的值（如负无穷），从而在计算注意力分布时将其忽略。
Trasformer最开始是应用在机器翻译，在翻译的过程中通过之前的句子对下一个词进行翻译，通过遮蔽的自注意力掩码，以防止在生成序列时泄漏未来信息。

ScaledDotProductAttention

代码文件：transformer/Modules.py
代码：

import torch
import torch.nn as nn
import torch.nn.functional as F

__author__ = "Yu-Hsiang Huang"

class ScaledDotProductAttention(nn.Module):
    ''' Scaled Dot-Product Attention '''
    # temperature: 缩放因子；attn_dropout：dropout概率
    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)

    def forward(self, q, k, v, mask=None):
        # 缩放因子，实际中一般为根号d_k，其中d_k为查询和键向量的维度。
        attn = torch.matmul(q / self.temperature, k.transpose(2, 3))
        
        # decoder阶段有掩码mask，将mask替换为极大负数，在softmax可以为0
        if mask is not None:
            attn = attn.masked_fill(mask == 0, -1e9)

        attn = self.dropout(F.softmax(attn, dim=-1))
        output = torch.matmul(attn, v)

        return output, attn

原理：

问题：

为什么scaled: 在不使用缩放因子的情况下，当查询张量q和键张量k的维度较大时，点积q·k的值也会变得非常大，这可能导致softmax计算时出现数值溢出或数值不稳定的问题。因此，我们可以通过除以一个缩放因子（通常为查询向量的维度的平方根）来缩小点积的值，从而控制注意力矩阵的大小，并更好地控制注意力权重的大小。

softmax函数会把大部分概率分布分配给最大的元素（和输入的数量级有关），如果不对attention分数进行归一化，那输入的数量级会比较大，softmax的输出就接近于one-hot向量，这时候softmax求导得到的梯度接近0（梯度接近0代表已经找到最优解，预测的类别和实际的类别完全匹配，但是实际上只是因为某个数值太大，softmax后接近1，梯度接近0），造成梯度消失，参数更新困难。
Q和K相乘如果不做归一化，方差为dk，方差越大也就说明，点积的数量级越大（以越大的概率取大值）就会造成梯度消失问题，除以dk的平方根后可以把方差控制为1，也就有效地控制了前面提到的梯度消失的问题。

为什么dropout: 在注意力机制中，通常会使用softmax函数将注意力分布映射到[0,1]的范围内，并作为权重来加权不同位置的特征向量。在softmax函数之后使用dropout来随机地将一部分注意力权重置为0。这样可以强制模型不依赖单个特定位置的注意力权重，从而增加模型的鲁棒性和泛化能力。此外，dropout还可以减少过拟合的风险，提高模型在测试集上的性能。

应用在MultiHeadAttention中（transformer/SubLayers.py）：

import numpy as np
import torch.nn as nn
import torch.nn.functional as F
from transformer.Modules import ScaledDotProductAttention

__author__ = "Yu-Hsiang Huang"

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''
    # n_head（注意力头的数量），d_model（输入向量的维度），d_k（每个头的查询向量维度），d_v（每个头的键值向量维度）
    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()

        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v
        # 将输入向量映射到多个头的查询、键和值向量
        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)
        # 将多个头的值向量合并为最终的输出向量
        self.fc = nn.Linear(n_head * d_v, d_model, bias=False)

        self.attention = ScaledDotProductAttention(temperature=d_k ** 0.5)

        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)


    def forward(self, q, k, v, mask=None):

        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, len_k, len_v = q.size(0), q.size(1), k.size(1), v.size(1)
        # 保存输入的残差值
        residual = q

        # Pass through the pre-attention projection: b x lq x (n*dv)
        # Separate different heads: b x lq x n x dv
        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)

        # Transpose for attention dot product: b x n x lq x dv
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2)

        if mask is not None:
            mask = mask.unsqueeze(1)   # For head axis broadcasting.

        q, attn = self.attention(q, k, v, mask=mask)

        # Transpose to move the head dimension back: b x lq x n x dv
        # Combine the last two dimensions to concatenate all the heads together: b x lq x (n*dv)
        # contiguous()使内存布局连续
        q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1)
        q = self.dropout(self.fc(q))
        q += residual

        q = self.layer_norm(q)

        return q, attn

MultiHeadAttention

代码文件：transformer/SubLayers.py
原理：

self-attention来由-取代RNN、CNN获取序列信息: RNN(获取序列信息，难以并行化)->CNN(可以并行化，长序列的获取需要堆叠filter)：可并行化计算、可捕捉长距离特征

self-attention计算过程：每个q对每个k做attention，attention就是算q\k向量有多相近，做softmax得到权重矩阵后和v相乘，每个b的计算都用到了整个seqence信息
multihead计算过程：增加了一个参数矩阵对多头的输出结果拼接后，进行矩阵乘法恢复原序列形状，并得到最终输出矩阵

问题：

Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？

点积模型在实现上利用了一次矩阵乘积，计算效率高
加性模型经过线性变换和激活函数映射得到相似性分数，引入多次矩阵乘积、加法和激活函数，参数量大。当神经网络较深时，梯度在每一层的非线性操作中逐渐缩小，最终可能会趋近于零，导致梯度无法有效地传递到浅层网络，从而影响参数更新和模型训练的效果。链路越长，梯度问题越有可能出现。

Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？

K和Q使用了不同的W_k, W_Q来计算，可以理解为是在不同空间上的投影。正因为有了这种不同空间的投影，增加了表达能力，这样计算得到的attention score矩阵的泛化能力更高。但是如果不用Q，直接拿K和K点乘的话，attention score 矩阵是一个对称矩阵。因为是同样一个矩阵，都投影到了同样一个空间，所以泛化能力很差。
例句：I am a student。如果QKV都是一样的话，那么attention score矩阵就是对称的，那么“I”和"student"两个词之间的关注度是一样的，但根据语义，很明显"student"对"I"的语义贡献度要大于"I"对"student"。

Transformer为何使用多头注意力机制？（为什么不使用一个头，为什么不是十个）？

每个头提取的特征不同，增加了提取特征的多样性，可以类比CNN里使用多个卷积核的作用。至于为什么不是十个，这是一个可调的超参数，实际上现有的相关大模型有的头数已经达到了40个

为什么用LayerNorm?

Normalization：将数据拉回标准正态分布，因为神经网络的Block大多是矩阵运算，一个向量经过矩阵运算后值会越来越大，为了网络稳定性，需要及时把值拉回正态分布。
BatchNorm一般用于CV领域，考虑到所有样本的每个特征
LayerNorm用于NLP领域，考虑到一个样本所有特征，而RNN、Transformer解决的是序列问题，不同样本的序列长度不一致，BatchNorm需要做不同样本同一位置特征进行标准化处理，无法应用，输入序列做了passding后序列长度一致，但是padding部分无意义，此时做标准化也无意义。LN保留了样本内不同特征之间的大小关系，即每个词之间的大小关系，对于NLP任务，每个序列的每个词，一条样本的不同特征，就是不同时序的变化，是需要学习的，不可以归一化。
句子之间-BN-infer时候eval()关掉；句子内-LN；

Post Norm和Pre Norm的区别及适用场景？

Pre Norm结构往往更容易训练，深层部分实际上更像扩展了模型宽度，所以相对好训练，但某种意义上并不是真正的 deep;梯度消失可能性小，add后norm残差作用被削弱
走Post Norm，梯度难以控制，更难收敛，最终效果可能更好；适合浅模型PostNorm（归一化效果好，深度深-梯度消失可能性大）

位置编码 PositionalEncoding

代码文件：transformer/Models.py
代码：

class PositionalEncoding(nn.Module):

    def __init__(self, d_hid, n_position=200):
        super(PositionalEncoding, self).__init__()

        # Not a parameter
        # 使用了 PyTorch 中的 register_buffer 方法来注册位置编码矩阵 pos_table，使其不受训练过程中的更新影响。
        self.register_buffer('pos_table', self._get_sinusoid_encoding_table(n_position, d_hid))
    # 获取位置编码矩阵pos_table，(n_position, d_hid) ， n_position 是输入序列的最大长度，d_hid 是隐藏层维度
    # 这个矩阵包含了一组基于正弦和余弦函数的位置编码向量
    def _get_sinusoid_encoding_table(self, n_position, d_hid):
        ''' Sinusoid position encoding table '''
        # TODO: make it with torch instead of numpy
        
        # 计算位置编码向量中每个维度的角度值，(0,d_hid)
        def get_position_angle_vec(position):
            return [position / np.power(10000, 2 * (hid_j // 2) / d_hid) for hid_j in range(d_hid)]
        # 对每个序列（0，n_position）计算位置编码向量中每个维度(0,d_hid)的角度值
        sinusoid_table = np.array([get_position_angle_vec(pos_i) for pos_i in range(n_position)])
        # 对偶数下标做sin操作，[:,0::2]表示从0开始，每隔2个元素取一个
        sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])  # dim 2i
        # 对奇数下标做cos操作，[:, 1::2]表示从1开始，每隔2个元素取一个
        sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])  # dim 2i+1

        return torch.FloatTensor(sinusoid_table).unsqueeze(0)

    def forward(self, x):
        # 使用 clone 和 detach 方法来创建 pos_table 的一个副本，使得位置编码不会与输入张量共享梯度，避免反向传播时梯度回传到 pos_table 上。
        # 位置编码矩阵的值取决于序列长度和隐藏层维度，不是模型的具体参数，不是作为模型的可学习参数     
        return x + self.pos_table[:, :x.size(1)].clone().detach()

原理：位置编码利用词的位置信息对语句中的词进行二次表示，通过位置编码使Transformer模型具备了学习词序的能力

正弦余弦位置编码是：用于为序列中的每个位置生成固定长度的向量表示的方法。
正弦余弦位置编码设计目的：在序列中保留位置信息，并且能够处理不同长度的句子。可以捕获位置之间的相对距离，同时避免了绝对位置信息带来的过度拟合。

问题：

transformer为什么用正余弦函数做位置编码？

对于超出训练集最大长度的文本也能做位置编码，有较好的泛化性；不会出现位置信息差距太大、维度增多而表示不了的位置信息
每一个位置有唯一编码
根据三角函数性质容易得到任意两个token的相对位置信息，通过夹角来确认相对位置；相对位置是固定的（取决于夹角大小，不管句子长短）
公式：在正弦余弦位置编码中，位置编码向量的每个维度对应一个周期函数；对于给定的位置 pos 和维度索引i，d_model 是位置编码向量的维度

PositionwiseFeedForward

代码文件：transformer/SubLayers.py
代码：

class PositionwiseFeedForward(nn.Module):
    ''' A two-feed-forward-layer module '''

    def __init__(self, d_in, d_hid, dropout=0.1):
        super().__init__()
        # position-wise：对输入张量的每个位置（维度）都应用相同的操作,d_hid:隐藏层维度,d_in：输入张量维度
        self.w_1 = nn.Linear(d_in, d_hid) # position-wise
        self.w_2 = nn.Linear(d_hid, d_in) # position-wise
        self.layer_norm = nn.LayerNorm(d_in, eps=1e-6)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        # x: b x lq x dv
        residual = x
        # 使用 ReLU 激活函数进行非线性变换
        x = self.w_2(F.relu(self.w_1(x)))
        # 应用 Dropout 正则化以减少过拟合风险
        x = self.dropout(x)
        x += residual

        x = self.layer_norm(x)

        return x

原理：

问题：

Transformer中的FFN主要作用是引入非线性吗？

self-attention模块都是线性操作，所以需要用FFN（有激活函数RELU）引入非线性，变换了attention output的空间, 从而增加了模型的表现能力。把FFN去掉模型也是可以用的，但是效果差了很多。
attention模块主要是提取token间特征，FFN用于提取token内部本身的特征信息

EncoderLayer

代码文件：transformer/Layers.py
代码：

''' Define the Layers '''
import torch.nn as nn
import torch
from transformer.SubLayers import MultiHeadAttention, PositionwiseFeedForward


__author__ = "Yu-Hsiang Huang"


class EncoderLayer(nn.Module):
    ''' Compose with two layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(EncoderLayer, self).__init__()
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(self, enc_input, slf_attn_mask=None):
        enc_output, enc_slf_attn = self.slf_attn(
            enc_input, enc_input, enc_input, mask=slf_attn_mask)
        enc_output = self.pos_ffn(enc_output)
        return enc_output, enc_slf_attn

原理：

Encoder

代码文件：transformer/Models.py
代码：

class Encoder(nn.Module):
    ''' A encoder model with self attention mechanism. '''

    def __init__(
            self, n_src_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, dropout=0.1, n_position=200, scale_emb=False):

        super().__init__()
        # n_src_vocab: 输入数据的词汇表大小；d_word_vec: 词嵌入向量的维度；n_position: 输入序列最大长度；pad_idx: 填充符号的索引
        self.src_word_emb = nn.Embedding(n_src_vocab, d_word_vec, padding_idx=pad_idx)
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position)
        self.dropout = nn.Dropout(p=dropout)
        # n_layers: 编码器中的层数；n_head: 注意力头的数量；d_k: Q, K 向量的维度；d_v: V 向量的维度；d_model: 模型的隐藏层维度；d_inner: 前馈网络隐藏层的维度；scale_emb: 是否在词嵌入向量上应用缩放因子
        self.layer_stack = nn.ModuleList([
            EncoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.scale_emb = scale_emb
        self.d_model = d_model
        
    def forward(self, src_seq, src_mask, return_attns=False):

        enc_slf_attn_list = []

        # -- Forward
        # 对输入序列 src_seq 应用词嵌入和位置编码
        enc_output = self.src_word_emb(src_seq)
        # 如果 scale_emb 为 True，则在词嵌入向量上应用缩放因子。
        if self.scale_emb:
            enc_output *= self.d_model ** 0.5
        # 对经过词嵌入和位置编码的向量进行 Dropout 和归一化
        enc_output = self.dropout(self.position_enc(enc_output))
        enc_output = self.layer_norm(enc_output)
        
        # 依次对每个 EncoderLayer 进行前向传播，并将每个 EncoderLayer 的自注意力矩阵添加到 enc_slf_attn_list 中
        for enc_layer in self.layer_stack:
            enc_output, enc_slf_attn = enc_layer(enc_output, slf_attn_mask=src_mask)
            enc_slf_attn_list += [enc_slf_attn] if return_attns else []
        # 如果 return_attns 为 True，则返回编码器输出和所有自注意力矩阵，否则只返回编码器输出
        if return_attns:
            return enc_output, enc_slf_attn_list
        return enc_output,

原理：

DecoderLayer

代码文件：transformer/Layers.py
代码：

class DecoderLayer(nn.Module):
    ''' Compose with three layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(DecoderLayer, self).__init__()
        # self.slf_attn: 自注意力层，使用 MultiHeadAttention 实现
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        # self.enc_attn: 编码器注意力层，使用 MultiHeadAttention 实现。
        self.enc_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        # self.slf_attn: 自注意力层，使用 MultiHeadAttention 实现
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(
            self, dec_input, enc_output,
            slf_attn_mask=None, dec_enc_attn_mask=None):
        # 使用 self.slf_attn 层计算自注意力，其中 Q、K、V 输入都是 dec_input，并使用 slf_attn_mask 进行遮掩。
        # 得到自注意力计算结果 dec_output 和自注意力矩阵 dec_slf_attn。
        dec_output, dec_slf_attn = self.slf_attn(
            dec_input, dec_input, dec_input, mask=slf_attn_mask)
        # 使用 self.enc_attn 层计算编码器注意力，其中 Q 输入是 dec_output，K、V 输入都是 enc_output，并使用 dec_enc_attn_mask 进行遮掩
        dec_output, dec_enc_attn = self.enc_attn(
            dec_output, enc_output, enc_output, mask=dec_enc_attn_mask)
        # 得到编码器注意力计算结果 dec_output 和编码器注意力矩阵 dec_enc_attn
        dec_output = self.pos_ffn(dec_output)
        return dec_output, dec_slf_attn, dec_enc_attn

原理：

Decoder

代码文件：transformer/Models.py
代码：

class Decoder(nn.Module):
    ''' A decoder model with self attention mechanism. '''
    # n_trg_vocab: 目标语言词汇表大小；d_word_vec: 词向量维度；n_layers: DecoderLayer 层数；n_head: 注意力头数；d_k: Q、K 向量维度；d_v: V 向量维度；d_model: 模型的隐藏层维度；d_inner: 前馈网络隐藏层维度；pad_idx: 填充字符的索引；n_position: 最大序列长度；dropout: Dropout 层的丢弃率；scale_emb: 是否对词向量进行缩放
    def __init__(
            self, n_trg_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, n_position=200, dropout=0.1, scale_emb=False):

        super().__init__()
        # self.trg_word_emb: 目标语言词嵌入层
        self.trg_word_emb = nn.Embedding(n_trg_vocab, d_word_vec, padding_idx=pad_idx)
        # self.position_enc: 位置编码层，使用 PositionalEncoding 实现
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position)
        # self.dropout: Dropout 层，丢弃率为 dropout
        self.dropout = nn.Dropout(p=dropout)
        # self.layer_stack: DecoderLayer 层的堆叠，使用 nn.ModuleList 实现
        self.layer_stack = nn.ModuleList([
            DecoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        # self.layer_norm: 归一化层，使用 nn.LayerNorm 实现
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        # self.scale_emb: 是否对词向量进行缩放
        self.scale_emb = scale_emb
        self.d_model = d_model

    def forward(self, trg_seq, trg_mask, enc_output, src_mask, return_attns=False):

        dec_slf_attn_list, dec_enc_attn_list = [], []

        # -- Forward
        # 使用 self.trg_word_emb 层对目标语言序列 trg_seq 进行嵌入
        dec_output = self.trg_word_emb(trg_seq)
        # 如果 self.scale_emb 为 True，则对嵌入结果进行缩放
        if self.scale_emb:
            dec_output *= self.d_model ** 0.5
        # 使用 self.position_enc 层对嵌入结果进行位置编码，并使用 self.dropout 层进行 Dropout
        dec_output = self.dropout(self.position_enc(dec_output))
        # 使用 self.layer_norm 层进行归一化
        dec_output = self.layer_norm(dec_output)
        # 对 dec_output 序列和编码器输出 enc_output 序列，作为输入传入 DecoderLayer 层。其中，slf_attn_mask 和 dec_enc_attn_mask 分别为目标语言序列和源语言序列的掩码，用于遮盖填充部分。
        # 得到 DecoderLayer 层的输出 dec_output，以及自注意力矩阵 dec_slf_attn 和编码器注意力矩阵 dec_enc_attn
        for dec_layer in self.layer_stack:
            dec_output, dec_slf_attn, dec_enc_attn = dec_layer(
                dec_output, enc_output, slf_attn_mask=trg_mask, dec_enc_attn_mask=src_mask)
            # 将自注意力矩阵和编码器注意力矩阵加入列表中，用于返回
            dec_slf_attn_list += [dec_slf_attn] if return_attns else []
            dec_enc_attn_list += [dec_enc_attn] if return_attns else []

        if return_attns:
            return dec_output, dec_slf_attn_list, dec_enc_attn_list
        return dec_output,

原理：

Transformer

代码文件：transformer/Models.py
代码：

class Transformer(nn.Module):
    # 带有注意力机制的序列到序列模型
    ''' A sequence to sequence model with attention mechanism. '''
    # trg_emb_prj_weight_sharing和 emb_src_trg_weight_sharing 分别表示是否共享目标语言词嵌入和线性映射权重，scale_emb_or_prj 表示在共享时是否需要对词嵌入或线性映射进行缩放操作。
    def __init__(
            self, n_src_vocab, n_trg_vocab, src_pad_idx, trg_pad_idx,
            d_word_vec=512, d_model=512, d_inner=2048,
            n_layers=6, n_head=8, d_k=64, d_v=64, dropout=0.1, n_position=200,
            trg_emb_prj_weight_sharing=True, emb_src_trg_weight_sharing=True,
            scale_emb_or_prj='prj'):

        super().__init__()

        self.src_pad_idx, self.trg_pad_idx = src_pad_idx, trg_pad_idx

        # In section 3.4 of paper "Attention Is All You Need", there is such detail:
        # "In our model, we share the same weight matrix between the two
        # embedding layers and the pre-softmax linear transformation...
        # In the embedding layers, we multiply those weights by \sqrt{d_model}".
        # 控制Transformer模型的参数设置，决定了在使用共享权重的情况下，如何对嵌入层和线性变换进行参数缩放。
        # Options here:
        # 在嵌入层中，将每个单词嵌入向量的维度乘以\sqrt{d_model}，从而扩大向量的表示范围；d_model是模型中隐藏层的维度。
        #   'emb': multiply \sqrt{d_model} to embedding output
        # 对于线性变换，将每个单词嵌入向量的维度除以\sqrt{d_model}，从而缩小输出的范围；
        #   'prj': multiply (\sqrt{d_model} ^ -1) to linear projection output
        #   'none': no multiplication

        assert scale_emb_or_prj in ['emb', 'prj', 'none']
        # 如果 trg_emb_prj_weight_sharing 为真，则 scale_emb 将会根据 scale_emb_or_prj 的取值来决定是否对词嵌入层进行缩放；self.scale_prj 则是根据 scale_emb_or_prj 的取值来决定是否对线性映射层进行缩放。
        scale_emb = (scale_emb_or_prj == 'emb') if trg_emb_prj_weight_sharing else False
        self.scale_prj = (scale_emb_or_prj == 'prj') if trg_emb_prj_weight_sharing else False
        self.d_model = d_model

        self.encoder = Encoder(
            n_src_vocab=n_src_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=src_pad_idx, dropout=dropout, scale_emb=scale_emb)

        self.decoder = Decoder(
            n_trg_vocab=n_trg_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=trg_pad_idx, dropout=dropout, scale_emb=scale_emb)
        # 通过线性映射层将解码器输出映射到目标语言词汇表大小
        self.trg_word_prj = nn.Linear(d_model, n_trg_vocab, bias=False)
        # self.parameters()返回模型所有参数
        for p in self.parameters():
            # 对于每一个参数 p，通过判断其维度大小是否大于 1，来确定是否需要进行初始化操作。
            # 一般来说，只有权重矩阵等具有多个元素的参数才需要进行初始化。
            if p.dim() > 1:
                #  Xavier Uniform 初始化。它的目的是根据输入和输出维度来初始化参数的取值范围，使得网络层在前向传播和反向传播时能够更好地保持梯度稳定，避免梯度消失或爆炸的问题。
                # Xavier Uniform 初始化会将参数 p 中的数值从一个均匀分布中采样，采样范围的上下界根据输入和输出维度进行计算。这样可以确保参数的初始化值既不过大也不过小，有利于模型的训练和优化过程。
                nn.init.xavier_uniform_(p) 
         
        # 要使用残差连接，需要保证各个模块的输入和输出维度一致，以便进行加法运算。
        # 确保模型中各个模块输出的维度与 d_model 相等，以便正确地使用残差连接。如果维度不一致，就会抛出异常信息，提醒开发者修改模型设计
        assert d_model == d_word_vec, \
        'To facilitate the residual connections, \
         the dimensions of all module outputs shall be the same.'
        
        # 实现目标词嵌入层（target word embedding）和最后一个全连接层（dense layer）之间的权重共享
        if trg_emb_prj_weight_sharing:
            # Share the weight between target word embedding & last dense layer
            # 将目标词嵌入层的权重设置为解码器（decoder）中目标词嵌入层的权重
            self.trg_word_prj.weight = self.decoder.trg_word_emb.weight
        # 源语言和目标语言词嵌入层之间的权重共享
        if emb_src_trg_weight_sharing:
            # 将编码器（encoder）中源语言词嵌入层的权重设置为解码器中目标语言词嵌入层的权重
            self.encoder.src_word_emb.weight = self.decoder.trg_word_emb.weight


    def forward(self, src_seq, trg_seq):

        src_mask = get_pad_mask(src_seq, self.src_pad_idx)
        trg_mask = get_pad_mask(trg_seq, self.trg_pad_idx) & get_subsequent_mask(trg_seq)

        enc_output, *_ = self.encoder(src_seq, src_mask)
        dec_output, *_ = self.decoder(trg_seq, trg_mask, enc_output, src_mask)
        seq_logit = self.trg_word_prj(dec_output)
        if self.scale_prj:
            seq_logit *= self.d_model ** -0.5
        # seq_logit 的形状为 (batch_size, seq_len, vocab_size)，其中 batch_size 表示批量大小，seq_len 表示序列长度，vocab_size 表示词汇表大小
        # 调用 view 函数对 seq_logit 进行形状变换，将其变成一个二维的张量。第一维表示所有序列的总数，也就是 batch_size * seq_len；第二维表示每个序列可能的输出单词数量，即 vocab_size。
        return seq_logit.view(-1, seq_logit.size(2))

问题：

扩大向量表示范围和缩小输出范围有什么意义？

在Transformer模型中，将每个单词的嵌入向量乘以\sqrt{d_model}，可以扩大向量表示的范围。这是因为在默认情况下，每个单词嵌入向量的维度通常比较小（如512），而模型中的隐藏层维度通常要大得多（如2048）。将每个单词嵌入向量扩大到\sqrt{d_model}后，可以使每个单词的向量表示更加丰富和有表达力，从而更好地捕捉单词之间的语义关系。
将线性变换的输出除以\sqrt{d_model}，可以缩小输出范围。这是因为对于softmax函数等激活函数来说，输入向量的范围越大，函数的输出就越不稳定，可能会导致数值溢出或下溢，影响模型的训练和推理效果。因此，通过对线性变换的输出进行缩放，可以使输出向量的范围更加集中和稳定，有助于提高模型的性能和稳定性。

权重共享？

权重共享是一种常见的优化技巧，通过共享参数可以减少模型的参数数量，提升模型的泛化能力，并且有时也可以加速模型的收敛速度。在神经机器翻译等任务中，源语言和目标语言之间的权重共享也可以帮助模型更好地学习语言特征和对齐信息。

前置学习：

论文："Attention is All You Need"
论文精度视频：from bilibili沐神：Transformer论文逐段精读【论文精读】
Transformer原理解析参考：*****://mp.weixin.qq.com/s/hn4EMcVJuBSjfGxJ_qM3Tw?from=industrynews&version=4.1.16.6007&platform=win
Transformer网络结构图：

代码：*****://github.com/jadore801120/attention-is-all-you-need-pytorch

代码学习

Masked

代码文件：transformer/Models.py
代码：

# 生成序列的填充掩码：将序列中的填充部分标记为0，非填充部分标记为1
def get_pad_mask(seq, pad_idx):
    # (batch_size, seq_len)变为(batch_size, 1, seq_len)
    return (seq != pad_idx).unsqueeze(-2)

# 生成后续信息掩码，屏蔽序列中当前位置之后的信息
def get_subsequent_mask(seq):
    ''' For masking out the subsequent info. '''
    sz_b, len_s = seq.size()
    #  torch.triu上三角矩阵，diagonal=1表示生成的上三角矩阵，保留主对角线上方一条对角线及以上的元素
    subsequent_mask = (1 - torch.triu(
        torch.ones((1, len_s, len_s), device=seq.device), diagonal=1)).bool()
    return subsequent_mask

原理：使attention只会attend on已经产生的sequence，对于未知的seqence无法做attention
后续信息掩码应用在：Decoder的Masked Multi-Head Self-attention中

问题：

Transormer中掩码原理

Transformer中，有两种常见的mask，padding mask（填充掩码）和attention mask（注意力掩码）

填充掩码主要解决序列长短不一致的问题，通过将填充位置标记为0，实现对填充位置的计算。
注意力掩码屏蔽不需要关注的位置，将其对应的注意力权重设置为一个很小的值（如负无穷），从而在计算注意力分布时将其忽略。
Trasformer最开始是应用在机器翻译，在翻译的过程中通过之前的句子对下一个词进行翻译，通过遮蔽的自注意力掩码，以防止在生成序列时泄漏未来信息。

ScaledDotProductAttention

代码文件：transformer/Modules.py
代码：

import torch
import torch.nn as nn
import torch.nn.functional as F

__author__ = "Yu-Hsiang Huang"

class ScaledDotProductAttention(nn.Module):
    ''' Scaled Dot-Product Attention '''
    # temperature: 缩放因子；attn_dropout：dropout概率
    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)

    def forward(self, q, k, v, mask=None):
        # 缩放因子，实际中一般为根号d_k，其中d_k为查询和键向量的维度。
        attn = torch.matmul(q / self.temperature, k.transpose(2, 3))
        
        # decoder阶段有掩码mask，将mask替换为极大负数，在softmax可以为0
        if mask is not None:
            attn = attn.masked_fill(mask == 0, -1e9)

        attn = self.dropout(F.softmax(attn, dim=-1))
        output = torch.matmul(attn, v)

        return output, attn

原理：

问题：

为什么scaled: 在不使用缩放因子的情况下，当查询张量q和键张量k的维度较大时，点积q·k的值也会变得非常大，这可能导致softmax计算时出现数值溢出或数值不稳定的问题。因此，我们可以通过除以一个缩放因子（通常为查询向量的维度的平方根）来缩小点积的值，从而控制注意力矩阵的大小，并更好地控制注意力权重的大小。

softmax函数会把大部分概率分布分配给最大的元素（和输入的数量级有关），如果不对attention分数进行归一化，那输入的数量级会比较大，softmax的输出就接近于one-hot向量，这时候softmax求导得到的梯度接近0（梯度接近0代表已经找到最优解，预测的类别和实际的类别完全匹配，但是实际上只是因为某个数值太大，softmax后接近1，梯度接近0），造成梯度消失，参数更新困难。
Q和K相乘如果不做归一化，方差为dk，方差越大也就说明，点积的数量级越大（以越大的概率取大值）就会造成梯度消失问题，除以dk的平方根后可以把方差控制为1，也就有效地控制了前面提到的梯度消失的问题。

为什么dropout: 在注意力机制中，通常会使用softmax函数将注意力分布映射到[0,1]的范围内，并作为权重来加权不同位置的特征向量。在softmax函数之后使用dropout来随机地将一部分注意力权重置为0。这样可以强制模型不依赖单个特定位置的注意力权重，从而增加模型的鲁棒性和泛化能力。此外，dropout还可以减少过拟合的风险，提高模型在测试集上的性能。

应用在MultiHeadAttention中（transformer/SubLayers.py）：

import numpy as np
import torch.nn as nn
import torch.nn.functional as F
from transformer.Modules import ScaledDotProductAttention

__author__ = "Yu-Hsiang Huang"

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''
    # n_head（注意力头的数量），d_model（输入向量的维度），d_k（每个头的查询向量维度），d_v（每个头的键值向量维度）
    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()

        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v
        # 将输入向量映射到多个头的查询、键和值向量
        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)
        # 将多个头的值向量合并为最终的输出向量
        self.fc = nn.Linear(n_head * d_v, d_model, bias=False)

        self.attention = ScaledDotProductAttention(temperature=d_k ** 0.5)

        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)


    def forward(self, q, k, v, mask=None):

        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, len_k, len_v = q.size(0), q.size(1), k.size(1), v.size(1)
        # 保存输入的残差值
        residual = q

        # Pass through the pre-attention projection: b x lq x (n*dv)
        # Separate different heads: b x lq x n x dv
        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)

        # Transpose for attention dot product: b x n x lq x dv
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2)

        if mask is not None:
            mask = mask.unsqueeze(1)   # For head axis broadcasting.

        q, attn = self.attention(q, k, v, mask=mask)

        # Transpose to move the head dimension back: b x lq x n x dv
        # Combine the last two dimensions to concatenate all the heads together: b x lq x (n*dv)
        # contiguous()使内存布局连续
        q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1)
        q = self.dropout(self.fc(q))
        q += residual

        q = self.layer_norm(q)

        return q, attn

MultiHeadAttention

代码文件：transformer/SubLayers.py
原理：

self-attention来由-取代RNN、CNN获取序列信息: RNN(获取序列信息，难以并行化)->CNN(可以并行化，长序列的获取需要堆叠filter)：可并行化计算、可捕捉长距离特征

self-attention计算过程：每个q对每个k做attention，attention就是算q\k向量有多相近，做softmax得到权重矩阵后和v相乘，每个b的计算都用到了整个seqence信息
multihead计算过程：增加了一个参数矩阵对多头的输出结果拼接后，进行矩阵乘法恢复原序列形状，并得到最终输出矩阵

问题：

Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？

点积模型在实现上利用了一次矩阵乘积，计算效率高
加性模型经过线性变换和激活函数映射得到相似性分数，引入多次矩阵乘积、加法和激活函数，参数量大。当神经网络较深时，梯度在每一层的非线性操作中逐渐缩小，最终可能会趋近于零，导致梯度无法有效地传递到浅层网络，从而影响参数更新和模型训练的效果。链路越长，梯度问题越有可能出现。

Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？

K和Q使用了不同的W_k, W_Q来计算，可以理解为是在不同空间上的投影。正因为有了这种不同空间的投影，增加了表达能力，这样计算得到的attention score矩阵的泛化能力更高。但是如果不用Q，直接拿K和K点乘的话，attention score 矩阵是一个对称矩阵。因为是同样一个矩阵，都投影到了同样一个空间，所以泛化能力很差。
例句：I am a student。如果QKV都是一样的话，那么attention score矩阵就是对称的，那么“I”和"student"两个词之间的关注度是一样的，但根据语义，很明显"student"对"I"的语义贡献度要大于"I"对"student"。

Transformer为何使用多头注意力机制？（为什么不使用一个头，为什么不是十个）？

每个头提取的特征不同，增加了提取特征的多样性，可以类比CNN里使用多个卷积核的作用。至于为什么不是十个，这是一个可调的超参数，实际上现有的相关大模型有的头数已经达到了40个

为什么用LayerNorm?

Normalization：将数据拉回标准正态分布，因为神经网络的Block大多是矩阵运算，一个向量经过矩阵运算后值会越来越大，为了网络稳定性，需要及时把值拉回正态分布。
BatchNorm一般用于CV领域，考虑到所有样本的每个特征
LayerNorm用于NLP领域，考虑到一个样本所有特征，而RNN、Transformer解决的是序列问题，不同样本的序列长度不一致，BatchNorm需要做不同样本同一位置特征进行标准化处理，无法应用，输入序列做了passding后序列长度一致，但是padding部分无意义，此时做标准化也无意义。LN保留了样本内不同特征之间的大小关系，即每个词之间的大小关系，对于NLP任务，每个序列的每个词，一条样本的不同特征，就是不同时序的变化，是需要学习的，不可以归一化。
句子之间-BN-infer时候eval()关掉；句子内-LN；

Post Norm和Pre Norm的区别及适用场景？

Pre Norm结构往往更容易训练，深层部分实际上更像扩展了模型宽度，所以相对好训练，但某种意义上并不是真正的 deep;梯度消失可能性小，add后norm残差作用被削弱
走Post Norm，梯度难以控制，更难收敛，最终效果可能更好；适合浅模型PostNorm（归一化效果好，深度深-梯度消失可能性大）

位置编码 PositionalEncoding

代码文件：transformer/Models.py
代码：

class PositionalEncoding(nn.Module):

    def __init__(self, d_hid, n_position=200):
        super(PositionalEncoding, self).__init__()

        # Not a parameter
        # 使用了 PyTorch 中的 register_buffer 方法来注册位置编码矩阵 pos_table，使其不受训练过程中的更新影响。
        self.register_buffer('pos_table', self._get_sinusoid_encoding_table(n_position, d_hid))
    # 获取位置编码矩阵pos_table，(n_position, d_hid) ， n_position 是输入序列的最大长度，d_hid 是隐藏层维度
    # 这个矩阵包含了一组基于正弦和余弦函数的位置编码向量
    def _get_sinusoid_encoding_table(self, n_position, d_hid):
        ''' Sinusoid position encoding table '''
        # TODO: make it with torch instead of numpy
        
        # 计算位置编码向量中每个维度的角度值，(0,d_hid)
        def get_position_angle_vec(position):
            return [position / np.power(10000, 2 * (hid_j // 2) / d_hid) for hid_j in range(d_hid)]
        # 对每个序列（0，n_position）计算位置编码向量中每个维度(0,d_hid)的角度值
        sinusoid_table = np.array([get_position_angle_vec(pos_i) for pos_i in range(n_position)])
        # 对偶数下标做sin操作，[:,0::2]表示从0开始，每隔2个元素取一个
        sinusoid_table[:, 0::2] = np.sin(sinusoid_table[:, 0::2])  # dim 2i
        # 对奇数下标做cos操作，[:, 1::2]表示从1开始，每隔2个元素取一个
        sinusoid_table[:, 1::2] = np.cos(sinusoid_table[:, 1::2])  # dim 2i+1

        return torch.FloatTensor(sinusoid_table).unsqueeze(0)

    def forward(self, x):
        # 使用 clone 和 detach 方法来创建 pos_table 的一个副本，使得位置编码不会与输入张量共享梯度，避免反向传播时梯度回传到 pos_table 上。
        # 位置编码矩阵的值取决于序列长度和隐藏层维度，不是模型的具体参数，不是作为模型的可学习参数     
        return x + self.pos_table[:, :x.size(1)].clone().detach()

原理：位置编码利用词的位置信息对语句中的词进行二次表示，通过位置编码使Transformer模型具备了学习词序的能力

正弦余弦位置编码是：用于为序列中的每个位置生成固定长度的向量表示的方法。
正弦余弦位置编码设计目的：在序列中保留位置信息，并且能够处理不同长度的句子。可以捕获位置之间的相对距离，同时避免了绝对位置信息带来的过度拟合。

问题：

transformer为什么用正余弦函数做位置编码？

对于超出训练集最大长度的文本也能做位置编码，有较好的泛化性；不会出现位置信息差距太大、维度增多而表示不了的位置信息
每一个位置有唯一编码
根据三角函数性质容易得到任意两个token的相对位置信息，通过夹角来确认相对位置；相对位置是固定的（取决于夹角大小，不管句子长短）
公式：在正弦余弦位置编码中，位置编码向量的每个维度对应一个周期函数；对于给定的位置 pos 和维度索引i，d_model 是位置编码向量的维度

PositionwiseFeedForward

代码文件：transformer/SubLayers.py
代码：

class PositionwiseFeedForward(nn.Module):
    ''' A two-feed-forward-layer module '''

    def __init__(self, d_in, d_hid, dropout=0.1):
        super().__init__()
        # position-wise：对输入张量的每个位置（维度）都应用相同的操作,d_hid:隐藏层维度,d_in：输入张量维度
        self.w_1 = nn.Linear(d_in, d_hid) # position-wise
        self.w_2 = nn.Linear(d_hid, d_in) # position-wise
        self.layer_norm = nn.LayerNorm(d_in, eps=1e-6)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        # x: b x lq x dv
        residual = x
        # 使用 ReLU 激活函数进行非线性变换
        x = self.w_2(F.relu(self.w_1(x)))
        # 应用 Dropout 正则化以减少过拟合风险
        x = self.dropout(x)
        x += residual

        x = self.layer_norm(x)

        return x

原理：

问题：

Transformer中的FFN主要作用是引入非线性吗？

self-attention模块都是线性操作，所以需要用FFN（有激活函数RELU）引入非线性，变换了attention output的空间, 从而增加了模型的表现能力。把FFN去掉模型也是可以用的，但是效果差了很多。
attention模块主要是提取token间特征，FFN用于提取token内部本身的特征信息

EncoderLayer

代码文件：transformer/Layers.py
代码：

''' Define the Layers '''
import torch.nn as nn
import torch
from transformer.SubLayers import MultiHeadAttention, PositionwiseFeedForward


__author__ = "Yu-Hsiang Huang"


class EncoderLayer(nn.Module):
    ''' Compose with two layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(EncoderLayer, self).__init__()
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(self, enc_input, slf_attn_mask=None):
        enc_output, enc_slf_attn = self.slf_attn(
            enc_input, enc_input, enc_input, mask=slf_attn_mask)
        enc_output = self.pos_ffn(enc_output)
        return enc_output, enc_slf_attn

原理：

Encoder

代码文件：transformer/Models.py
代码：

class Encoder(nn.Module):
    ''' A encoder model with self attention mechanism. '''

    def __init__(
            self, n_src_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, dropout=0.1, n_position=200, scale_emb=False):

        super().__init__()
        # n_src_vocab: 输入数据的词汇表大小；d_word_vec: 词嵌入向量的维度；n_position: 输入序列最大长度；pad_idx: 填充符号的索引
        self.src_word_emb = nn.Embedding(n_src_vocab, d_word_vec, padding_idx=pad_idx)
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position)
        self.dropout = nn.Dropout(p=dropout)
        # n_layers: 编码器中的层数；n_head: 注意力头的数量；d_k: Q, K 向量的维度；d_v: V 向量的维度；d_model: 模型的隐藏层维度；d_inner: 前馈网络隐藏层的维度；scale_emb: 是否在词嵌入向量上应用缩放因子
        self.layer_stack = nn.ModuleList([
            EncoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.scale_emb = scale_emb
        self.d_model = d_model
        
    def forward(self, src_seq, src_mask, return_attns=False):

        enc_slf_attn_list = []

        # -- Forward
        # 对输入序列 src_seq 应用词嵌入和位置编码
        enc_output = self.src_word_emb(src_seq)
        # 如果 scale_emb 为 True，则在词嵌入向量上应用缩放因子。
        if self.scale_emb:
            enc_output *= self.d_model ** 0.5
        # 对经过词嵌入和位置编码的向量进行 Dropout 和归一化
        enc_output = self.dropout(self.position_enc(enc_output))
        enc_output = self.layer_norm(enc_output)
        
        # 依次对每个 EncoderLayer 进行前向传播，并将每个 EncoderLayer 的自注意力矩阵添加到 enc_slf_attn_list 中
        for enc_layer in self.layer_stack:
            enc_output, enc_slf_attn = enc_layer(enc_output, slf_attn_mask=src_mask)
            enc_slf_attn_list += [enc_slf_attn] if return_attns else []
        # 如果 return_attns 为 True，则返回编码器输出和所有自注意力矩阵，否则只返回编码器输出
        if return_attns:
            return enc_output, enc_slf_attn_list
        return enc_output,

原理：

DecoderLayer

代码文件：transformer/Layers.py
代码：

class DecoderLayer(nn.Module):
    ''' Compose with three layers '''

    def __init__(self, d_model, d_inner, n_head, d_k, d_v, dropout=0.1):
        super(DecoderLayer, self).__init__()
        # self.slf_attn: 自注意力层，使用 MultiHeadAttention 实现
        self.slf_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        # self.enc_attn: 编码器注意力层，使用 MultiHeadAttention 实现。
        self.enc_attn = MultiHeadAttention(n_head, d_model, d_k, d_v, dropout=dropout)
        # self.slf_attn: 自注意力层，使用 MultiHeadAttention 实现
        self.pos_ffn = PositionwiseFeedForward(d_model, d_inner, dropout=dropout)

    def forward(
            self, dec_input, enc_output,
            slf_attn_mask=None, dec_enc_attn_mask=None):
        # 使用 self.slf_attn 层计算自注意力，其中 Q、K、V 输入都是 dec_input，并使用 slf_attn_mask 进行遮掩。
        # 得到自注意力计算结果 dec_output 和自注意力矩阵 dec_slf_attn。
        dec_output, dec_slf_attn = self.slf_attn(
            dec_input, dec_input, dec_input, mask=slf_attn_mask)
        # 使用 self.enc_attn 层计算编码器注意力，其中 Q 输入是 dec_output，K、V 输入都是 enc_output，并使用 dec_enc_attn_mask 进行遮掩
        dec_output, dec_enc_attn = self.enc_attn(
            dec_output, enc_output, enc_output, mask=dec_enc_attn_mask)
        # 得到编码器注意力计算结果 dec_output 和编码器注意力矩阵 dec_enc_attn
        dec_output = self.pos_ffn(dec_output)
        return dec_output, dec_slf_attn, dec_enc_attn

原理：

Decoder

代码文件：transformer/Models.py
代码：

class Decoder(nn.Module):
    ''' A decoder model with self attention mechanism. '''
    # n_trg_vocab: 目标语言词汇表大小；d_word_vec: 词向量维度；n_layers: DecoderLayer 层数；n_head: 注意力头数；d_k: Q、K 向量维度；d_v: V 向量维度；d_model: 模型的隐藏层维度；d_inner: 前馈网络隐藏层维度；pad_idx: 填充字符的索引；n_position: 最大序列长度；dropout: Dropout 层的丢弃率；scale_emb: 是否对词向量进行缩放
    def __init__(
            self, n_trg_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, n_position=200, dropout=0.1, scale_emb=False):

        super().__init__()
        # self.trg_word_emb: 目标语言词嵌入层
        self.trg_word_emb = nn.Embedding(n_trg_vocab, d_word_vec, padding_idx=pad_idx)
        # self.position_enc: 位置编码层，使用 PositionalEncoding 实现
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position)
        # self.dropout: Dropout 层，丢弃率为 dropout
        self.dropout = nn.Dropout(p=dropout)
        # self.layer_stack: DecoderLayer 层的堆叠，使用 nn.ModuleList 实现
        self.layer_stack = nn.ModuleList([
            DecoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        # self.layer_norm: 归一化层，使用 nn.LayerNorm 实现
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        # self.scale_emb: 是否对词向量进行缩放
        self.scale_emb = scale_emb
        self.d_model = d_model

    def forward(self, trg_seq, trg_mask, enc_output, src_mask, return_attns=False):

        dec_slf_attn_list, dec_enc_attn_list = [], []

        # -- Forward
        # 使用 self.trg_word_emb 层对目标语言序列 trg_seq 进行嵌入
        dec_output = self.trg_word_emb(trg_seq)
        # 如果 self.scale_emb 为 True，则对嵌入结果进行缩放
        if self.scale_emb:
            dec_output *= self.d_model ** 0.5
        # 使用 self.position_enc 层对嵌入结果进行位置编码，并使用 self.dropout 层进行 Dropout
        dec_output = self.dropout(self.position_enc(dec_output))
        # 使用 self.layer_norm 层进行归一化
        dec_output = self.layer_norm(dec_output)
        # 对 dec_output 序列和编码器输出 enc_output 序列，作为输入传入 DecoderLayer 层。其中，slf_attn_mask 和 dec_enc_attn_mask 分别为目标语言序列和源语言序列的掩码，用于遮盖填充部分。
        # 得到 DecoderLayer 层的输出 dec_output，以及自注意力矩阵 dec_slf_attn 和编码器注意力矩阵 dec_enc_attn
        for dec_layer in self.layer_stack:
            dec_output, dec_slf_attn, dec_enc_attn = dec_layer(
                dec_output, enc_output, slf_attn_mask=trg_mask, dec_enc_attn_mask=src_mask)
            # 将自注意力矩阵和编码器注意力矩阵加入列表中，用于返回
            dec_slf_attn_list += [dec_slf_attn] if return_attns else []
            dec_enc_attn_list += [dec_enc_attn] if return_attns else []

        if return_attns:
            return dec_output, dec_slf_attn_list, dec_enc_attn_list
        return dec_output,

原理：

Transformer

代码文件：transformer/Models.py
代码：

class Transformer(nn.Module):
    # 带有注意力机制的序列到序列模型
    ''' A sequence to sequence model with attention mechanism. '''
    # trg_emb_prj_weight_sharing和 emb_src_trg_weight_sharing 分别表示是否共享目标语言词嵌入和线性映射权重，scale_emb_or_prj 表示在共享时是否需要对词嵌入或线性映射进行缩放操作。
    def __init__(
            self, n_src_vocab, n_trg_vocab, src_pad_idx, trg_pad_idx,
            d_word_vec=512, d_model=512, d_inner=2048,
            n_layers=6, n_head=8, d_k=64, d_v=64, dropout=0.1, n_position=200,
            trg_emb_prj_weight_sharing=True, emb_src_trg_weight_sharing=True,
            scale_emb_or_prj='prj'):

        super().__init__()

        self.src_pad_idx, self.trg_pad_idx = src_pad_idx, trg_pad_idx

        # In section 3.4 of paper "Attention Is All You Need", there is such detail:
        # "In our model, we share the same weight matrix between the two
        # embedding layers and the pre-softmax linear transformation...
        # In the embedding layers, we multiply those weights by \sqrt{d_model}".
        # 控制Transformer模型的参数设置，决定了在使用共享权重的情况下，如何对嵌入层和线性变换进行参数缩放。
        # Options here:
        # 在嵌入层中，将每个单词嵌入向量的维度乘以\sqrt{d_model}，从而扩大向量的表示范围；d_model是模型中隐藏层的维度。
        #   'emb': multiply \sqrt{d_model} to embedding output
        # 对于线性变换，将每个单词嵌入向量的维度除以\sqrt{d_model}，从而缩小输出的范围；
        #   'prj': multiply (\sqrt{d_model} ^ -1) to linear projection output
        #   'none': no multiplication

        assert scale_emb_or_prj in ['emb', 'prj', 'none']
        # 如果 trg_emb_prj_weight_sharing 为真，则 scale_emb 将会根据 scale_emb_or_prj 的取值来决定是否对词嵌入层进行缩放；self.scale_prj 则是根据 scale_emb_or_prj 的取值来决定是否对线性映射层进行缩放。
        scale_emb = (scale_emb_or_prj == 'emb') if trg_emb_prj_weight_sharing else False
        self.scale_prj = (scale_emb_or_prj == 'prj') if trg_emb_prj_weight_sharing else False
        self.d_model = d_model

        self.encoder = Encoder(
            n_src_vocab=n_src_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=src_pad_idx, dropout=dropout, scale_emb=scale_emb)

        self.decoder = Decoder(
            n_trg_vocab=n_trg_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=trg_pad_idx, dropout=dropout, scale_emb=scale_emb)
        # 通过线性映射层将解码器输出映射到目标语言词汇表大小
        self.trg_word_prj = nn.Linear(d_model, n_trg_vocab, bias=False)
        # self.parameters()返回模型所有参数
        for p in self.parameters():
            # 对于每一个参数 p，通过判断其维度大小是否大于 1，来确定是否需要进行初始化操作。
            # 一般来说，只有权重矩阵等具有多个元素的参数才需要进行初始化。
            if p.dim() > 1:
                #  Xavier Uniform 初始化。它的目的是根据输入和输出维度来初始化参数的取值范围，使得网络层在前向传播和反向传播时能够更好地保持梯度稳定，避免梯度消失或爆炸的问题。
                # Xavier Uniform 初始化会将参数 p 中的数值从一个均匀分布中采样，采样范围的上下界根据输入和输出维度进行计算。这样可以确保参数的初始化值既不过大也不过小，有利于模型的训练和优化过程。
                nn.init.xavier_uniform_(p) 
         
        # 要使用残差连接，需要保证各个模块的输入和输出维度一致，以便进行加法运算。
        # 确保模型中各个模块输出的维度与 d_model 相等，以便正确地使用残差连接。如果维度不一致，就会抛出异常信息，提醒开发者修改模型设计
        assert d_model == d_word_vec, \
        'To facilitate the residual connections, \
         the dimensions of all module outputs shall be the same.'
        
        # 实现目标词嵌入层（target word embedding）和最后一个全连接层（dense layer）之间的权重共享
        if trg_emb_prj_weight_sharing:
            # Share the weight between target word embedding & last dense layer
            # 将目标词嵌入层的权重设置为解码器（decoder）中目标词嵌入层的权重
            self.trg_word_prj.weight = self.decoder.trg_word_emb.weight
        # 源语言和目标语言词嵌入层之间的权重共享
        if emb_src_trg_weight_sharing:
            # 将编码器（encoder）中源语言词嵌入层的权重设置为解码器中目标语言词嵌入层的权重
            self.encoder.src_word_emb.weight = self.decoder.trg_word_emb.weight


    def forward(self, src_seq, trg_seq):

        src_mask = get_pad_mask(src_seq, self.src_pad_idx)
        trg_mask = get_pad_mask(trg_seq, self.trg_pad_idx) & get_subsequent_mask(trg_seq)

        enc_output, *_ = self.encoder(src_seq, src_mask)
        dec_output, *_ = self.decoder(trg_seq, trg_mask, enc_output, src_mask)
        seq_logit = self.trg_word_prj(dec_output)
        if self.scale_prj:
            seq_logit *= self.d_model ** -0.5
        # seq_logit 的形状为 (batch_size, seq_len, vocab_size)，其中 batch_size 表示批量大小，seq_len 表示序列长度，vocab_size 表示词汇表大小
        # 调用 view 函数对 seq_logit 进行形状变换，将其变成一个二维的张量。第一维表示所有序列的总数，也就是 batch_size * seq_len；第二维表示每个序列可能的输出单词数量，即 vocab_size。
        return seq_logit.view(-1, seq_logit.size(2))

问题：

扩大向量表示范围和缩小输出范围有什么意义？

在Transformer模型中，将每个单词的嵌入向量乘以\sqrt{d_model}，可以扩大向量表示的范围。这是因为在默认情况下，每个单词嵌入向量的维度通常比较小（如512），而模型中的隐藏层维度通常要大得多（如2048）。将每个单词嵌入向量扩大到\sqrt{d_model}后，可以使每个单词的向量表示更加丰富和有表达力，从而更好地捕捉单词之间的语义关系。
将线性变换的输出除以\sqrt{d_model}，可以缩小输出范围。这是因为对于softmax函数等激活函数来说，输入向量的范围越大，函数的输出就越不稳定，可能会导致数值溢出或下溢，影响模型的训练和推理效果。因此，通过对线性变换的输出进行缩放，可以使输出向量的范围更加集中和稳定，有助于提高模型的性能和稳定性。

权重共享？

权重共享是一种常见的优化技巧，通过共享参数可以减少模型的参数数量，提升模型的泛化能力，并且有时也可以加速模型的收敛速度。在神经机器翻译等任务中，源语言和目标语言之间的权重共享也可以帮助模型更好地学习语言特征和对齐信息。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

Transformer代码阅读与问题记录

前置学习：

代码学习

Masked

ScaledDotProductAttention

MultiHeadAttention

位置编码 PositionalEncoding

PositionwiseFeedForward

EncoderLayer

Encoder

DecoderLayer

Decoder

Transformer

Transformer代码阅读与问题记录

前置学习：

代码学习

Masked

ScaledDotProductAttention

MultiHeadAttention

位置编码 PositionalEncoding

PositionwiseFeedForward

EncoderLayer

Encoder

DecoderLayer

Decoder

Transformer

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

Transformer代码阅读与问题记录

前置学习：

代码学习

Masked

ScaledDotProductAttention

MultiHeadAttention

位置编码 PositionalEncoding

PositionwiseFeedForward

EncoderLayer

Encoder

DecoderLayer

Decoder

Transformer

Transformer代码阅读与问题记录

前置学习：

代码学习

Masked

ScaledDotProductAttention

MultiHeadAttention

位置编码 PositionalEncoding

PositionwiseFeedForward

EncoderLayer

Encoder

DecoderLayer

Decoder

Transformer