Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

AI资讯4周前发布 XiaoWen
146 0 0

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff


新智元报道

编辑:KingHZ


【新智元导读】

谷歌团队发布LLM硬核技术教科书,从「系统视图」揭秘LLM Scaling的神秘面纱。Jeff Dean强调书中藏着谷歌最强AI模型Gemini训练的更多信息。

由于深度学习的「黑箱」本性,从业者自我调侃道:

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

2018年5月3日, Science发表新闻,标题直指「炼金术」,强调加强AI的科学基础

但这次的谷歌的团队,却有不一样的看法:

近日,谷歌DeepMind科学家Jacob Austint在X上, 发布了基于JAX和TPU的大模型Scaling教科书《How to Sacle Your Model》。

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

Jeff Dean转发原帖,并打起了广告:

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

进入教科书网站,可以看到大写的标题:「如何扩大模型规模(

How toSacle Your Model

)」。

正如小标题所言,这本书关于在张量处理单元(TPU)上大语言模型的的系统观点。

这是一本关于LLM底层硬核技术的教科书,简介如下:

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

教科书链接:

模型Scaling,无需恐惧

三四年前,大多数机器学习研究人员,可能并不需要了解模型扩展(model scaling)。

但如今,即便是「较小」的模型,也已经逼近硬件极限,因此研究要有真正的创新性,就必须考虑如何在大规模环境下提高效率。

作者详细解释了为什么要模型扩展及其目标:

看不懂这些,也没关系,毕竟

这是谷歌最强模型Gemini同款的技术栈

但作者诚意十足,表示:如果认真看完后,有晦涩的地方,请及时反馈,保证一定改。


作者保证:必有所得

从处理单个加速器到处理数万个加速器,相对简单的原则无处不在,了解这些原则可以让你做很多有用的事情:


此书的目标

是解释TPU(以及 GPU)的工作原理,以及为了当前硬件上实现高效计算,Transformer架构如何不断演化。

希望这些内容既能帮助研究人员

设计新的模型架构

,也能为工程师提供指导,以

优化

当前一代的大语言模型(LLM)

计算性能

作者保证,读完此书一定有所收获:


基础知识

要阅读此书,作者提醒读者:

下面的背景资料,有助于了解所需的基础知识:

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

博客链接:

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

JAX讲义:

整体结构

在本书中,将解答以下问题:

这些内容能帮助读者,深入理解LLM在现代硬件上的运行机制,并学会如何优化训练和推理的效率。

《第1章》介绍屋顶线分析(Roofline Analysis),并探讨限制模型扩展的关键因素,包括通信、计算和内存。

《第2章》和《第3章》详细讲解TPU和现代GPU的工作原理,既包括作为独立芯片的运行机制,也涵盖了更关键的内容——它们如何通过芯片间互连(inter-chip links)形成一个计算集群,并受到带宽和延迟的限制。

五年前,机器学习领域的架构还十分多样化包——括卷积神经网络、长短时记忆网络、多层感知机和Transformer等。

如今,Transformer架构一家独大


Transformer结构的每一个细节,都非常值得深入理解

,包括:矩阵的具体尺寸、归一化(Normalization)发生的位置、各部分包含多少参数和FLOPs(浮点运算次数)。

《第4章》将详细解析

Transformer的数学计算

,帮助你掌握如何计算训练和推理过程中的参数量和FLOPs。

这些计算将揭示:

通过这些分析,将能够更精确地优化Transformer训练和推理的效率,并更深入地理解其计算特性。

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

图示2:标准Transformer层,每个矩阵乘法(matmul)以圆圈中的点表示。所有参数(不包括归一化层)以紫色显示。

《第5章:训练》和《第7章:推理》是本书的

核心内容

,在这两章中将讨论一个根本问题:

这个看似简单的问题,其实有着令人意外的复杂答案。

从高层次来看,主要有四种并行化技术用于将模型分布到多个芯片上:数据并行(Data Parallelism)、张量并行(Tensor Parallelism)、流水线并行(Pipeline Parallelism)以及专家并行(Expert Parallelism)。

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

图3:纯数据并行(前向传播)示意图。激活(Activations)(左侧)完全按照批次维度(batch dimension) 进行分片。

这种方法通过将批次分配到多个 TPU 上,实现了数据并行,从而在没有额外通信负担的情况下,加速模型的计算。

此外,还有多种技术可以减少内存需求,比如重新计算(Rematerialization)、优化器/模型分片(Optimizer/Model Sharding,也称为ZeRO)、主机卸载(Host Offload)、梯度累积(Gradient Accumulation)。

在这两章中将讨论这些技术,并帮助理解如何在新的架构或设置中选择最适合的并行化策略。

《第6章》和《第8章》是实际操作教程,应用这些概念于LLaMA-3,更直观地理解如何在实际应用中进行操作。

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

最后,《第9章》和《第10章》将讨论如何在JAX中实现这些想法,并介绍当代码出现问题时如何进行性能分析和调试。

在《第11章》中,会给出进一步阅读清单和更深入的参考文献。

在整个过程中,会给出一些需要自己动手解决的问题。

作者温馨提示:

当前的目录,翻译如下:

Dean带货揭Gemini训练秘籍 在TPU上scaling 谷歌超硬核教科书来了!Jeff

© 版权声明

相关文章

暂无评论

none
暂无评论...