「三种Transformer模型中的注意力机制介绍及PyTorch实现：从自注意力到因果自注意力」（技术风格，专业态度），40-60字。

jiezi

1 月前

「三种 Transformer 模型中的注意力机制介绍及 PyTorch 实现：从自注意力到因果自注意力」

自注意力（Self-Attention）是 Transformer 模型中最核心的部分之一，它允许模型在序列中自我关注，并为每个位置生成一个权重分数，这些分数反映了位置之间的相关性。在本文中，我们将介绍三种 Transformer 模型中的注意力机制，并使用 PyTorch 进行实现。

自注意力（Self-Attention）

自注意力是 Transformer 模型的核心部分之一，它允许模型在序列中自我关注，并为每个位置生成一个权重分数，这些分数反映了位置之间的相关性。自注意力可以帮助模型识别序列中的重要位置和关系，并帮助它们进行预测。

自注意力的计算过程可以分为三步：

a. 查询（Query）、键（Key）和值（Value）的计算：

查询（Query）是一个矩阵，其中每个位置是一个查询向量。
键（Key）是一个矩阵，其中每个位置是一个键向量。
值（Value）是一个矩阵，其中每个位置是一个值向量。

b. 计算注意力分数：

计算每个位置的注意力分数，这是通过将查询和键矩阵相乘并应用 softmax 函数来完成的。

c. 计算上下文向量：

将所有值矩阵和注意力分数相乘并求和，得到上下文向量。

下面是一个简单的自注意力实现：

“`python
import torch
from torch.nn import Linear

class SelfAttention(torch.nn.Module):
def init(self, embed_dim):
super(SelfAttention, self).init()
self.query = Linear(embed_dim, embed_dim, bias=False)
self.key = Linear(embed_dim, embed_dim, bias=False)
self.value = Linear(embed_dim, embed_dim, bias=False)

def forward(self, x):
    batch_size, seq_len, embed_dim = x.shape
    query = self.query(x).view(batch_size, seq_len, seq_len, embed_dim).permute(2, 0, 1, 3).contiguous()
    key = self.key(x).view(batch_size, seq_len, seq_len, embed_dim).permute(2, 0, 1, 3).contiguous()
    value = self.value(x).view(batch_size, seq_len, seq_len, embed_dim).permute(2, 0, 1, 3).contiguous()
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(embed_dim)
    attn = torch.softmax(scores, dim=-1)
    context = torch.matmul(attn, value)
    return context.permute(0, 2, 1, 3).contiguous().view(batch_size, seq_len, embed_dim)

“`

位置编码（Position Encoding）

位置编码是 Transformer 模型中的另一重要部分，它允许模型识别序列中的位置信息。位置编码可以帮助模型识别序列中的重要位置和关系，并帮助它们进行预测。

位置编码可以通过将位置映射到一个低维的位置向量来完成，这些向量可以帮助模型识别序列中的位置信息。

下面是一个简单的位置编码实现：

“`python
import math

def positional_encoding(seq_len, embed_dim):
pe = torch.zeros(seq_len, embed_dim)
for pos in range(seq_len):
for i in range(embed_dim // 2, 0, -2):
pe[pos, 2 * I] = math.sin(pos / 10000 ** (2 * I / embed_dim))
pe[pos, 2 * I + 1] = math.cos(pos / 10000 ** (2 * I / embed_dim))
return pe
“`

因果自注意力（Causal Self-Attention）

因果自注意力是 Transformer 模型中的一种变体，它允许模型在序列中进行自我关注，但只能看到前面的位置。这可以帮助模型避免过长的序列中的注意力计算，并帮助它们进行预测。

因果自注意力可以通过将注意力分数限制为只能看到前面的位置来完成，这可以帮助模型避免过长的序列中的注意力计算。

下面是一个简单的因果自注意力实现：

“`python
import torch
from torch.nn import Linear

class CausalSelfAttention(torch.nn.Module):
def init(self, embed_dim):
super(CausalSelfAttention, self).init()
self.query = Linear(embed_dim, embed_dim, bias=False)
self.key = Linear(embed_dim, embed_dim, bias=False)
self.value = Linear(embed_dim, embed_dim, bias=False)
self.register_buffer(‘causal_mask’, torch.triu(torch.ones(seq_len, seq_len), diagonal=1).view(1, 1, seq_len, seq_len))

def forward(self, x):
    batch_size, seq_len, embed_dim = x.shape
    query = self.query(x).view(batch_size, seq_len, seq_len, embed_dim).permute(2, 0, 1, 3).contiguous()
    key = self.key(x).view(batch_size, seq_len, seq_len, embed_dim).permute(2, 0, 1, 3).contiguous()
    value = self.value(x).view(batch_size, seq_len, seq_len, embed_dim).permute(2, 0, 1, 3).contiguous()
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(embed_dim)
    scores = scores.masked_fill(self.causal_mask, float('-inf'))
    attn = torch.softmax(scores, dim=-1)
    context = torch.matmul(attn, value)
    return context.permute(0, 2, 1, 3).contiguous().view(batch_size, seq_len, embed_dim)

“`

总结

Transformer 模型中的注意力机制是非常重要的部分，它们允许模型在序列中自我关注并识别序列中的重要位置和关系。在本文中，我们介绍了三种 Transformer 模型中的注意力机制，并使用 PyTorch 进行了实现。自注意力是 Transformer 模型的核心部分之一，它允许模型在序列中自我关注并为每个位置生成一个权重分数，这些分数反映了位置之间的相关性。位置编码是 Transformer 模型中的另一重要部分，它允许模型识别序列中的位置信息。因果自注意力是 Transformer 模型中的一种变体，它允许模型在序列中进行自我关注，但只能看到前面的