使用 Torchtitan 进行分布式大语言模型预训练

提供基于 PyTorch 原生、使用 torchtitan 实现 4D 并行（FSDP2、TP、PP、CP）的分布式大语言模型预训练。当需要使用 Float8、torch.compile 和分布式检查点，在 8 到 512+ 个 GPU 上大规模预训练 Llama 3.1、DeepSeek V3 或自定义模型时使用此技能。

技能元数据


来源	可选 — 通过 `hermes skills install official/mlops/torchtitan` 安装
路径	`optional-skills/mlops/torchtitan`
版本	`1.0.0`
作者	Orchestra Research
许可证	MIT
依赖项	`torch>=2.6.0`, `torchtitan>=0.2.0`, `torchao>=0.5.0`
平台	linux, macos
标签	`模型架构`, `分布式训练`, `TorchTitan`, `FSDP2`, `张量并行`, `流水线并行`, `上下文并行`, `Float8`, `Llama`, `预训练`

---
title: "TorchTitan - PyTorch 原生分布式大语言模型预训练"
description: "TorchTitan 是 PyTorch 官方的可组合 4D 并行平台，用于大规模大语言模型预训练。"
slug: torchtit-an
---
:::info
以下是在该技能触发时，Hermes 加载的完整技能定义。这是技能激活时智能体看到的指令。
:::

# TorchTitan - PyTorch 原生分布式大语言模型预训练

## 快速入门

TorchTitan 是 PyTorch 官方的用于大规模大语言模型预训练的平台，具备可组合的 4D 并行性（FSDP2, TP, PP, CP），在 H100 GPU 上相比基线可实现 65% 以上的加速。

**安装**:
```bash
# 通过 PyPI（稳定版）
pip install torchtitan

# 通过源码（最新功能，需要 PyTorch nightly 版本）
git clone https://github.com/pytorch/torchtitan
cd torchtitan
pip install -r requirements.txt

下载分词器:

# 从 https://huggingface.co/settings/tokens 获取 HF 令牌
python scripts/download_hf_assets.py --repo_id meta-llama/Llama-3.1-8B --assets tokenizer --hf_token=...

在 8 个 GPU 上启动训练:

CONFIG_FILE="./torchtitan/models/llama3/train_configs/llama3_8b.toml" ./run_train.sh

常见工作流程

工作流程 1：在单节点上预训练 Llama 3.1 8B

复制此清单：

单节点预训练：
- [ ] 步骤 1：下载分词器
- [ ] 步骤 2：配置训练
- [ ] 步骤 3：启动训练
- [ ] 步骤 4：监控与设置检查点

步骤 1：下载分词器

python scripts/download_hf_assets.py \
  --repo_id meta-llama/Llama-3.1-8B \
  --assets tokenizer \
  --hf_token=YOUR_HF_TOKEN

步骤 2：配置训练

编辑或创建一个 TOML 配置文件：

# llama3_8b_custom.toml
[job]
dump_folder = "./outputs"
description = "Llama 3.1 8B 训练"

[model]
name = "llama3"
flavor = "8B"
hf_assets_path = "./assets/hf/Llama-3.1-8B"

[optimizer]
name = "AdamW"
lr = 3e-4

[lr_scheduler]
warmup_steps = 200

[training]
local_batch_size = 2
seq_len = 8192
max_norm = 1.0
steps = 1000
dataset = "c4"

[parallelism]
data_parallel_shard_degree = -1  # 所有 GPU 用于 FSDP

[activation_checkpoint]
mode = "selective"
selective_ac_option = "op"

[checkpoint]
enable = true
folder = "checkpoint"
interval = 500

步骤 3：启动训练

# 单节点 8 个 GPU
CONFIG_FILE="./llama3_8b_custom.toml" ./run_train.sh

# 或者显式使用 torchrun
torchrun --nproc_per_node=8 \
  -m torchtitan.train \
  --job.config_file ./llama3_8b_custom.toml

步骤 4：监控与设置检查点

TensorBoard 日志保存在 ./outputs/tb/：

tensorboard --logdir ./outputs/tb

工作流程 2：使用 SLURM 进行多节点训练

多节点训练：
- [ ] 步骤 1：为扩展配置并行性
- [ ] 步骤 2：设置 SLURM 脚本
- [ ] 步骤 3：提交作业
- [ ] 步骤 4：从检查点恢复

步骤 1：为扩展配置并行性

在 256 个 GPU（32 个节点）上运行 70B 模型：

[parallelism]
data_parallel_shard_degree = 32  # 32 个 rank 之间的 FSDP
tensor_parallel_degree = 8        # 节点内的 TP
pipeline_parallel_degree = 1      # 70B 不使用 PP
context_parallel_degree = 1       # 对于长序列可增加

步骤 2：设置 SLURM 脚本

#!/bin/bash
#SBATCH --job-name=llama70b
#SBATCH --nodes=32
#SBATCH --ntasks-per-node=8
#SBATCH --gpus-per-node=8

srun torchrun \
  --nnodes=32 \
  --nproc_per_node=8 \
  --rdzv_backend=c10d \
  --rdzv_endpoint=$MASTER_ADDR:$MASTER_PORT \
  -m torchtitan.train \
  --job.config_file ./llama3_70b.toml

步骤 3：提交作业

sbatch multinode_trainer.slurm

步骤 4：从检查点恢复

如果在配置的文件夹中存在检查点，训练会自动恢复。

工作流程 3：为 H100 启用 Float8 训练

Float8 可在 H100 GPU 上提供 30-50% 的加速。

Float8 训练：
- [ ] 步骤 1：安装 torchao
- [ ] 步骤 2：配置 Float8
- [ ] 步骤 3：使用编译启动

步骤 1：安装 torchao

USE_CPP=0 pip install git+https://github.com/pytorch/ao.git

步骤 2：配置 Float8

添加到你的 TOML 配置：

[model]
converters = ["quantize.linear.float8"]

[quantize.linear.float8]
enable_fsdp_float8_all_gather = true
precompute_float8_dynamic_scale_for_fsdp = true
filter_fqns = ["output"]  # 排除输出层

[compile]
enable = true
components = ["model", "loss"]

步骤 3：使用编译启动

CONFIG_FILE="./llama3_8b.toml" ./run_train.sh \
  --model.converters="quantize.linear.float8" \
  --quantize.linear.float8.enable_fsdp_float8_all_gather \
  --compile.enable

工作流程 4：用于 405B 模型的 4D 并行

4D 并行 (FSDP + TP + PP + CP)：
- [ ] 步骤 1：创建种子检查点
- [ ] 步骤 2：配置 4D 并行
- [ ] 步骤 3：在 512 个 GPU 上启动

步骤 1：创建种子检查点

为确保 PP 阶段间初始化的一致性所需：

NGPU=1 CONFIG_FILE=./llama3_405b.toml ./run_train.sh \
  --checkpoint.enable \
  --checkpoint.create_seed_checkpoint \
  --parallelism.data_parallel_shard_degree 1 \
  --parallelism.tensor_parallel_degree 1 \
  --parallelism.pipeline_parallel_degree 1

步骤 2：配置 4D 并行

[parallelism]
data_parallel_shard_degree = 8   # FSDP
tensor_parallel_degree = 8       # 节点内的 TP
pipeline_parallel_degree = 8     # 跨节点的 PP
context_parallel_degree = 1      # 用于长序列的 CP

[training]
local_batch_size = 32
seq_len = 8192

步骤 3：在 512 个 GPU 上启动

# 64 个节点 x 8 个 GPU = 512 个 GPU
srun torchrun --nnodes=64 --nproc_per_node=8 \
  -m torchtitan.train \
  --job.config_file ./llama3_405b.toml

何时使用与替代方案的对比

使用 TorchTitan 当：

从头预训练大语言模型（8B 到 405B+）
需要无第三方依赖的 PyTorch 原生解决方案
需要可组合的 4D 并行性（FSDP2, TP, PP, CP）
在 H100 上使用 Float8 支持进行训练
需要与 torchtune/HuggingFace 可互操作的检查点

使用替代方案当：

Megatron-LM：针对纯 NVIDIA 部署追求极致性能
DeepSpeed：更广泛的 ZeRO 优化生态系统，支持推理
Axolotl/TRL：用于微调而非预训练
LitGPT：用于教育、较小规模的训练

常见问题

问题：大模型内存不足

启用激活检查点并减小批量大小：

[activation_checkpoint]
mode = "full"  # 而非 "selective"

[training]
local_batch_size = 1

或使用梯度累积：

[training]
local_batch_size = 1
global_batch_size = 32  # 累积梯度

问题：异步集合通信导致 TP 内存占用高

设置环境变量：

export TORCH_NCCL_AVOID_RECORD_STREAMS=1

问题：Float8 训练未提速

Float8 仅对大型矩阵乘法有益。过滤小层：

[quantize.linear.float8]
filter_fqns = ["attention.wk", "attention.wv", "output", "auto_filter_small_kn"]

问题：并行性更改后检查点加载失败

使用 DCP 的重分片能力：

# 将分片检查点转换为单个文件
python -m torch.distributed.checkpoint.format_utils \
  dcp_to_torch checkpoint/step-1000 checkpoint.pt

问题：流水线并行初始化

首先创建种子检查点（参见工作流程 4，步骤 1）。

支持的模型

模型	尺寸	状态
Llama 3.1	8B, 70B, 405B	生产
Llama 4	各种尺寸	实验性
DeepSeek V3	16B, 236B, 671B (MoE)	实验性
GPT-OSS	20B, 120B (MoE)	实验性
Qwen 3	各种尺寸	实验性
Flux	扩散模型	实验性

性能基准 (H100)

模型	GPU 数量	并行性	TPS/GPU	技术
Llama 8B	8	FSDP	5,762	基线
Llama 8B	8	FSDP+compile+FP8	8,532	+48%
Llama 70B	256	FSDP+TP+AsyncTP	876	2D 并行
Llama 405B	512	FSDP+TP+PP	128	3D 并行

高级主题

FSDP2 配置：参见 references/fsdp.md 了解 FSDP2 与 FSDP1 的详细对比和 ZeRO 等效项。

Float8 训练：参见 references/float8.md 了解逐张量与逐行缩放方案。

检查点：参见 references/checkpoint.md 了解 HuggingFace 转换和异步检查点。

添加自定义模型：参见 references/custom-models.md 了解 TrainSpec 协议。

资源

GitHub: https://github.com/pytorch/torchtitan
论文: https://arxiv.org/abs/2410.06511
ICLR 2025: https://iclr.cc/virtual/2025/poster/29620
PyTorch 论坛: https://discuss.pytorch.org/c/distributed/torchtitan/44

技能元数据​

常见工作流程​

工作流程 1：在单节点上预训练 Llama 3.1 8B​

工作流程 2：使用 SLURM 进行多节点训练​

工作流程 3：为 H100 启用 Float8 训练​

工作流程 4：用于 405B 模型的 4D 并行​

何时使用与替代方案的对比​

常见问题​

支持的模型​

性能基准 (H100)​

高级主题​

资源​