分类列表

 本文提出了 Transformer 架构,完全基于注意力机制(Attention Mechanism),摒弃了传统的 RNN 和 CNN 结构,在机器翻译任务上取得了当时的最优效果,并成为后续 BERT、GPT 等大模型的基础架构。

Vaswani, Shazeer, Parmar et al.NeurIPS 20172024-12-15NLPTransformerAttentionSeq2Seq深度学习难度推荐 PDF Code