位置编码
自注意力对位置不敏感,必须显式给输入序列注入位置信息。Transformer 原论文采用正弦 / 余弦位置编码——这是一种无参、可外推到任意长度的方案。
正弦位置编码热图
为什么用正弦 / 余弦
- 可外推:训练时没见过的更长位置也能直接计算
- 相对位置可线性表达:两个位置编码的差只与相对距离有关,便于注意力学相对偏移
- 无可学习参数:不占模型容量
后续工作(RoPE、ALiBi、可学习位置嵌入等)大多在这三点上做权衡。
自注意力对位置不敏感,必须显式给输入序列注入位置信息。Transformer 原论文采用正弦 / 余弦位置编码——这是一种无参、可外推到任意长度的方案。
后续工作(RoPE、ALiBi、可学习位置嵌入等)大多在这三点上做权衡。