深度学习：从感知机到 Transformer

学习目标

不止于会调 API，而是真正理解每个组件为什么这样设计。从最基础的感知机出发，手写实现关键模块，再回到经典论文。

最大的收获不是某个具体模型，而是意识到：几乎所有进步都来自对「信息如何流动」的重新设计。残差连接、注意力、归一化，本质都在回答同一个问题——如何让梯度和信息更顺畅地传递。