本文提出了 Transformer 架构,完全基于注意力机制(Attention Mechanism),摒弃了传统的 RNN 和 CNN 结构,在机器翻译任务上取得了当时的最优效果,并成为后续 BERT、GPT 等大模型的基础架构。
AI/ML/NLP/CV 方向论文阅读笔记,记录学术前沿与个人思考