跳到主要内容

大语言模型服务化 vLLM

vLLM: 高吞吐量LLM服务、OpenAI API、量化。

技能元数据

来源内置(默认安装)
路径skills/mlops/inference/vllm
版本1.0.0
作者Orchestra Research
许可证MIT
依赖项vllm, torch, transformers
平台linux, macos
标签vLLM, 推理服务, 分页注意力, 连续批处理, 高吞吐量, 生产部署, OpenAI API, 量化, 张量并行
信息

以下是 Hermes 在触发此技能时加载的完整技能定义。这是智能体在技能激活时看到的指令。

vLLM - 高性能大语言模型推理服务

使用场景

在部署生产环境大语言模型 API、优化推理延迟/吞吐量,或在有限 GPU 内存下服务模型时使用。支持 OpenAI 兼容端点、量化(GPTQ/AWQ/FP8)和张量并行。

快速开始

vLLM 通过 PagedAttention(基于块的 KV 缓存)和连续批处理(混合预填充/解码请求)实现了比标准 Transformers 高 24 倍的吞吐量。

安装

pip install vllm

基础离线推理

from vllm import LLM, SamplingParams

llm = LLM(model="meta-llama/Llama-3-8B-Instruct")
sampling = SamplingParams(temperature=0.7, max_tokens=256)

outputs = llm.generate(["Explain quantum computing"], sampling)
print(outputs[0].outputs[0].text)

OpenAI 兼容服务器

vllm serve meta-llama/Llama-3-8B-Instruct

# 使用 OpenAI SDK 查询
python -c "
from openai import OpenAI
client = OpenAI(base_url='http://localhost:8000/v1', api_key='EMPTY')
print(client.chat.completions.create(
model='meta-llama/Llama-3-8B-Instruct',
messages=[{'role': 'user', 'content': 'Hello!'}]
).choices[0].message.content)
"

常用工作流程

工作流程 1:生产环境 API 部署

复制此清单并跟踪进度:

部署进度:
- [ ] 步骤 1:配置服务器设置
- [ ] 步骤 2:使用有限流量进行测试
- [ ] 步骤 3:启用监控
- [ ] 步骤 4:部署到生产环境
- [ ] 步骤 5:验证性能指标

步骤 1:配置服务器设置

根据你的模型大小选择配置:

# 在单 GPU 上运行 7B-13B 模型
vllm serve meta-llama/Llama-3-8B-Instruct \
--gpu-memory-utilization 0.9 \
--max-model-len 8192 \
--port 8000

# 使用张量并行运行 30B-70B 模型
vllm serve meta-llama/Llama-2-70b-hf \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.9 \
--quantization awq \
--port 8000

# 用于生产环境,启用缓存和指标
vllm serve meta-llama/Llama-3-8B-Instruct \
--gpu-memory-utilization 0.9 \
--enable-prefix-caching \
--enable-metrics \
--metrics-port 9090 \
--port 8000 \
--host 0.0.0.0

步骤 2:使用有限流量进行测试

在部署到生产环境前运行负载测试:

# 安装负载测试工具
pip install locust

# 创建包含示例请求的 test_load.py
# 运行:locust -f test_load.py --host http://localhost:8000

验证首 Token 时间(TTFT)< 500ms,吞吐量 > 100 请求/秒。

步骤 3:启用监控

vLLM 在端口 9090 上暴露 Prometheus 指标:

curl http://localhost:9090/metrics | grep vllm

需要监控的关键指标:

  • vllm:time_to_first_token_seconds - 延迟
  • vllm:num_requests_running - 活跃请求数
  • vllm:gpu_cache_usage_perc - KV 缓存利用率

步骤 4:部署到生产环境

使用 Docker 实现一致的部署:

# 在 Docker 中运行 vLLM
docker run --gpus all -p 8000:8000 \
vllm/vllm-openai:latest \
--model meta-llama/Llama-3-8B-Instruct \
--gpu-memory-utilization 0.9 \
--enable-prefix-caching

步骤 5:验证性能指标

检查部署是否满足目标:

  • TTFT < 500ms(针对短提示)
  • 吞吐量 > 目标请求数/秒
  • GPU 利用率 > 80%
  • 日志中无 OOM 错误

工作流程 2:离线批处理推理

用于处理大型数据集,无服务器开销。

复制此清单:

批处理:
- [ ] 步骤 1:准备输入数据
- [ ] 步骤 2:配置 LLM 引擎
- [ ] 步骤 3:运行批处理推理
- [ ] 步骤 4:处理结果

步骤 1:准备输入数据

# 从文件加载提示词
prompts = []
with open("prompts.txt") as f:
prompts = [line.strip() for line in f]

print(f"加载了 {len(prompts)} 个提示词")

步骤 2:配置 LLM 引擎

from vllm import LLM, SamplingParams

llm = LLM(
model="meta-llama/Llama-3-8B-Instruct",
tensor_parallel_size=2, # 使用 2 块 GPU
gpu_memory_utilization=0.9,
max_model_len=4096
)

sampling = SamplingParams(
temperature=0.7,
top_p=0.95,
max_tokens=512,
stop=["</s>", "\n\n"]
)

步骤 3:运行批处理推理

vLLM 会自动进行批处理以提高效率:

# 在一次调用中处理所有提示词
outputs = llm.generate(prompts, sampling)

# vLLM 在内部处理批处理
# 无需手动分块提示词

步骤 4:处理结果

# 提取生成的文本
results = []
for output in outputs:
prompt = output.prompt
generated = output.outputs[0].text
results.append({
"prompt": prompt,
"generated": generated,
"tokens": len(output.outputs[0].token_ids)
})

# 保存到文件
import json
with open("results.jsonl", "w") as f:
for result in results:
f.write(json.dumps(result) + "\n")

print(f"处理了 {len(results)} 个提示词")

工作流程 3:量化模型推理

在有限 GPU 内存中运行大型模型。

量化设置:
- [ ] 步骤 1:选择量化方法
- [ ] 步骤 2:查找或创建量化模型
- [ ] 步骤 3:使用量化标志启动
- [ ] 步骤 4:验证准确性

步骤 1:选择量化方法

  • AWQ:最适合 70B 模型,精度损失最小
  • GPTQ:模型支持广泛,压缩效果好
  • FP8:在 H100 GPU 上速度最快

步骤 2:查找或创建量化模型

使用 HuggingFace 上的预量化模型:

# 搜索 AWQ 模型
# 示例:TheBloke/Llama-2-70B-AWQ

步骤 3:使用量化标志启动

# 使用预量化模型
vllm serve TheBloke/Llama-2-70B-AWQ \
--quantization awq \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95

# 结果:70B 模型只需约 40GB 显存

步骤 4:验证准确性

测试输出是否符合预期质量:

# 比较量化与非量化响应
# 验证特定任务性能未变

何时使用 vLLM 与其他方案对比

在以下情况使用 vLLM:

  • 部署生产环境 LLM API(100+ 请求/秒)
  • 提供 OpenAI 兼容端点
  • GPU 内存有限但需要大型模型
  • 多用户应用程序(聊天机器人、助手)
  • 需要高吞吐量下的低延迟

改用其他方案:

  • llama.cpp:CPU/边缘推理,单用户
  • HuggingFace Transformers:研究、原型设计、一次性生成
  • TensorRT-LLM:仅限 NVIDIA,需要绝对最高性能
  • Text-Generation-Inference:已在 HuggingFace 生态系统中

常见问题

问题:加载模型时内存不足

减少内存使用:

vllm serve MODEL \
--gpu-memory-utilization 0.7 \
--max-model-len 4096

或使用量化:

vllm serve MODEL --quantization awq

问题:首 Token 时间慢(TTFT > 1 秒)

为重复提示启用前缀缓存:

vllm serve MODEL --enable-prefix-caching

对于长提示,启用分块预填充:

vllm serve MODEL --enable-chunked-prefill

问题:找不到模型错误

对于自定义模型使用 --trust-remote-code

vllm serve MODEL --trust-remote-code

问题:吞吐量低(<50 请求/秒)

增加并发序列数:

vllm serve MODEL --max-num-seqs 512

使用 nvidia-smi 检查 GPU 利用率——应高于 80%。

问题:推理速度慢于预期

验证张量并行使用的是 2 的幂次方 GPU:

vllm serve MODEL --tensor-parallel-size 4 # 而不是 3

启用推测解码以加快生成速度:

vllm serve MODEL --speculative-model DRAFT_MODEL

高级主题

服务器部署模式:参见 references/server-deployment.md 了解 Docker、Kubernetes 和负载均衡配置。

性能优化:参见 references/optimization.md 了解 PagedAttention 调优、连续批处理细节和基准测试结果。

量化指南:参见 references/quantization.md 了解 AWQ/GPTQ/FP8 设置、模型准备和准确性对比。

故障排除:参见 references/troubleshooting.md 了解详细错误信息、调试步骤和性能诊断。

硬件要求

  • 小型模型(7B-13B):1 块 A10(24GB)或 A100(40GB)
  • 中型模型(30B-40B):2 块 A100(40GB)配合张量并行
  • 大型模型(70B+):4 块 A100(40GB)或 2 块 A100(80GB),使用 AWQ/GPTQ

支持平台:NVIDIA(主要)、AMD ROCm、Intel GPU、TPU

资源