Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

AI资讯4周前发布 XiaoWen

146 0 0

新智元报道

编辑：KingHZ

【新智元导读】

谷歌团队发布LLM硬核技术教科书，从「系统视图」揭秘LLM Scaling的神秘面纱。Jeff Dean强调书中藏着谷歌最强AI模型Gemini训练的更多信息。

由于深度学习的「黑箱」本性，从业者自我调侃道：

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

2018年5月3日， Science发表新闻，标题直指「炼金术」，强调加强AI的科学基础

但这次的谷歌的团队，却有不一样的看法：

近日，谷歌DeepMind科学家Jacob Austint在X上，发布了基于JAX和TPU的大模型Scaling教科书《How to Sacle Your Model》。

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

Jeff Dean转发原帖，并打起了广告：

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

进入教科书网站，可以看到大写的标题：「如何扩大模型规模（

How toSacle Your Model

）」。

正如小标题所言，这本书关于在张量处理单元（TPU）上大语言模型的的系统观点。

这是一本关于LLM底层硬核技术的教科书，简介如下：

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

教科书链接：

模型Scaling，无需恐惧

三四年前，大多数机器学习研究人员，可能并不需要了解模型扩展（model scaling）。

但如今，即便是「较小」的模型，也已经逼近硬件极限，因此研究要有真正的创新性，就必须考虑如何在大规模环境下提高效率。

作者详细解释了为什么要模型扩展及其目标：

看不懂这些，也没关系，毕竟

这是谷歌最强模型Gemini同款的技术栈

！

但作者诚意十足，表示：如果认真看完后，有晦涩的地方，请及时反馈，保证一定改。

作者保证：必有所得

从处理单个加速器到处理数万个加速器，相对简单的原则无处不在，了解这些原则可以让你做很多有用的事情：

此书的目标

是解释TPU（以及 GPU）的工作原理，以及为了当前硬件上实现高效计算，Transformer架构如何不断演化。

希望这些内容既能帮助研究人员

设计新的模型架构

，也能为工程师提供指导，以

优化

当前一代的大语言模型（LLM）

计算性能

。

作者保证，读完此书一定有所收获：

基础知识

要阅读此书，作者提醒读者：

下面的背景资料，有助于了解所需的基础知识：

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

博客链接：

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

JAX讲义:

整体结构

在本书中，将解答以下问题：

这些内容能帮助读者，深入理解LLM在现代硬件上的运行机制，并学会如何优化训练和推理的效率。

《第1章》介绍屋顶线分析（Roofline Analysis），并探讨限制模型扩展的关键因素，包括通信、计算和内存。

《第2章》和《第3章》详细讲解TPU和现代GPU的工作原理，既包括作为独立芯片的运行机制，也涵盖了更关键的内容——它们如何通过芯片间互连（inter-chip links）形成一个计算集群，并受到带宽和延迟的限制。

五年前，机器学习领域的架构还十分多样化包——括卷积神经网络、长短时记忆网络、多层感知机和Transformer等。

如今，Transformer架构一家独大

。

Transformer结构的每一个细节，都非常值得深入理解

，包括：矩阵的具体尺寸、归一化（Normalization）发生的位置、各部分包含多少参数和FLOPs（浮点运算次数）。

《第4章》将详细解析

Transformer的数学计算

，帮助你掌握如何计算训练和推理过程中的参数量和FLOPs。

这些计算将揭示：

通过这些分析，将能够更精确地优化Transformer训练和推理的效率，并更深入地理解其计算特性。

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

图示2：标准Transformer层，每个矩阵乘法（matmul）以圆圈中的点表示。所有参数（不包括归一化层）以紫色显示。

《第5章：训练》和《第7章：推理》是本书的

核心内容

，在这两章中将讨论一个根本问题：

这个看似简单的问题，其实有着令人意外的复杂答案。

从高层次来看，主要有四种并行化技术用于将模型分布到多个芯片上：数据并行（Data Parallelism）、张量并行（Tensor Parallelism）、流水线并行（Pipeline Parallelism）以及专家并行（Expert Parallelism）。

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

图3：纯数据并行（前向传播）示意图。激活（Activations）（左侧）完全按照批次维度（batch dimension）进行分片。

这种方法通过将批次分配到多个 TPU 上，实现了数据并行，从而在没有额外通信负担的情况下，加速模型的计算。

此外，还有多种技术可以减少内存需求，比如重新计算（Rematerialization）、优化器/模型分片（Optimizer/Model Sharding，也称为ZeRO）、主机卸载（Host Offload）、梯度累积（Gradient Accumulation）。

在这两章中将讨论这些技术，并帮助理解如何在新的架构或设置中选择最适合的并行化策略。

《第6章》和《第8章》是实际操作教程，应用这些概念于LLaMA-3，更直观地理解如何在实际应用中进行操作。

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

最后，《第9章》和《第10章》将讨论如何在JAX中实现这些想法，并介绍当代码出现问题时如何进行性能分析和调试。

在《第11章》中，会给出进一步阅读清单和更深入的参考文献。

在整个过程中，会给出一些需要自己动手解决的问题。

作者温馨提示：

当前的目录，翻译如下：

Dean带货揭Gemini训练秘籍在TPU上scaling 谷歌超硬核教科书来了！Jeff

AI资讯 # scaling # 原理 # 大模型 # 教科书 # 知名企业 # 神经网络 # 算法 # 训练秘籍 # 谷歌

文章版权归作者所有，未经允许请勿转载。

施普林格·自然推出人工智能新工具提升科研诚信和伦理检查效率

AI资讯 # 提升科研诚信和伦理检查效率 # 施普林格·自然推出人工智能新工具

3个月前

03070

AI时代应对网络造谣警方核查数百条地震造谣信息

AI资讯 # AI # 信息传播 # 公安部网

3个月前

03700

OpenAI o3

AI资讯 # mini # OpenAI # 中文推理

4周前

01020

Claude 3.7硬控马里奥90秒 GPT

AI资讯 # 4 # claude # GPT

4周前

01180

暂无评论

暂无评论...