可视化资源

基于 Transformer 的序列到序列模型

完全基于自注意力机制，抛弃循环与卷积，可并行处理整个序列。是当前大模型的基础架构。

Transformer 编码器—解码器 — Transformer 编码器与解码器并行处理序列。

图片来源：Google AI Blog