大佬 Aleksa Gordić (水平问题) 刚发了篇深度长文《Transfo

大佬 Aleksa Gordić (水平问题) 刚发了篇深度长文《Transformer 内部：一个 Token 的一生》, 带你深入解析现代稠密 Transformer：YaRN、混合注意力、soft capping、QK normalization、FLOPs/token、集群规模估算等地址：www.aleksagordic.com/blog/transformer

“在这篇文章中，我会深入介绍现代稠密 Transformer 的内部机制。我将只关注单块 GPU 上的前向传播，就像我们即将执行一个训练步骤一样，同时忽略反向传播和分布式系统细节。实践中，大型 Transformer 在训练和推理时通常都会分布在多台设备上。

作为贯穿全文的例子，我会使用 Rnj 1.5 的确切架构。这是我和 Ashish Vaswani 的 AI Lab（Essential AI Labs）团队一起做过的一个模型。我们本周发布了它，并在 Hugging Face 上开放了权重。

本文分为七个部分：

Transformer 前向传播：一个 token 的高层流程RMSNorm：归一化层GeGLU MLP：GELU 门控前馈模块MHA：多头自注意力YaRN：用于长上下文的位置嵌入Core Attention：全局注意力 + 块内局部注意力Transformer 数学：FLOPs/token、集群规模估算等”AI创造营

YC科技资讯网

大佬 Aleksa Gordić (水平问题) 刚发了篇深度长文《Transfo

热门分类