可视化资源

位置编码

自注意力对位置不敏感,必须显式给输入序列注入位置信息。Transformer 原论文采用正弦 / 余弦位置编码——这是一种无参、可外推到任意长度的方案。

正弦位置编码热图

正弦位置编码热图
横轴为编码维度,纵轴为位置;每一行就是一个位置的编码向量。低维度变化快、高维度变化慢,类似多尺度时钟。
来源:Jay Alammar — The Illustrated Transformer

为什么用正弦 / 余弦

后续工作(RoPE、ALiBi、可学习位置嵌入等)大多在这三点上做权衡。

交互式资源