在 Ubuntu 上运行大模型(如 LLM,大语言模型)时,版本选择涉及多个层面:Ubuntu 系统版本、CUDA 版本、PyTorch/TensorFlow 版本、Python 版本,以及所使用的大模型框架(如 Hugging Face、vLLM、Llama.cpp、Ollama 等)。以下是详细的版本选择建议和推荐配置。
一、Ubuntu 系统版本推荐
推荐版本:Ubuntu 20.04 LTS 或 Ubuntu 22.04 LTS
- Ubuntu 20.04 LTS:长期支持,稳定性高,兼容性好,适合生产环境。
- Ubuntu 22.04 LTS:更新的内核和软件包,对较新的 GPU 驱动支持更好。
- 不推荐使用 Ubuntu 24.04 LTS(除非必要):虽然更新,但部分深度学习库(如旧版 PyTorch)可能尚未完全适配。
✅ 建议选择 Ubuntu 22.04 LTS,兼顾新功能与稳定性。
二、GPU 驱动与 CUDA 支持
大模型训练/推理通常依赖 GPU(NVIDIA),需安装:
1. NVIDIA 驱动
- 使用
ubuntu-drivers devices查看推荐驱动。 - 推荐安装 NVIDIA 驱动 535 或更高版本(支持 CUDA 12.x)。
sudo ubuntu-drivers autoinstall
2. CUDA Toolkit
- 推荐 CUDA 11.8 或 CUDA 12.1
- PyTorch 官方目前对 CUDA 11.8 支持最稳定。
- CUDA 12.1 支持更新的 GPU(如 RTX 40 系列)。
✅ 推荐:CUDA 11.8(兼容性最好)或 CUDA 12.1(新硬件)
三、Python 与 虚拟环境
-
Python 版本:3.9 ~ 3.11
- PyTorch 和 TensorFlow 官方推荐使用 Python 3.9 或 3.10。
- 避免使用 Python 3.12(部分包尚未完全支持)。
-
使用虚拟环境(推荐
conda或venv):python3 -m venv llm_env source llm_env/bin/activate
四、深度学习框架版本选择
1. PyTorch(最常用)
- 推荐版本:PyTorch 2.1 或 2.3 + 对应的 torchvision/torchaudio
- 安装命令(CUDA 11.8):
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 - 或 CUDA 12.1:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
✅ 推荐:PyTorch 2.3 + CUDA 11.8(最稳定)
2. TensorFlow(较少用于大模型推理)
- TF 2.13+ 支持 CUDA 11.8,但大模型生态不如 PyTorch 丰富。
五、大模型运行框架选择
根据你的使用场景选择:
| 框架 | 适用场景 | 推荐版本 |
|---|---|---|
| Hugging Face Transformers | 通用,支持大多数模型 | 最新版(transformers==4.40+) |
| vLLM | 高性能推理,支持量化 | vllm==0.4.2(支持 CUDA 11.8/12.1) |
| Llama.cpp | CPU/GPU 混合,轻量级 | 最新版(支持 GGUF 量化) |
| Ollama | 本地运行大模型,简单易用 | 最新版(支持 Llama 3、Mistral 等) |
| Text Generation Inference (TGI) | 批量推理,生产部署 | Hugging Face 官方推荐 |
✅ 推荐组合:
- 开发/实验:Hugging Face + PyTorch
- 高性能推理:vLLM 或 TGI
- 低资源设备:Llama.cpp(GGUF 量化)
六、完整推荐配置(示例)
# 系统
Ubuntu 22.04 LTS
# GPU 驱动
NVIDIA Driver 535+
# CUDA
CUDA 11.8
# Python
Python 3.10
# PyTorch
torch==2.3.0+cu118
# 大模型框架
transformers==4.40.0
accelerate==0.29.0
vllm==0.4.2 # 可选
七、注意事项
- 显存要求:7B 模型 FP16 需要 ~14GB 显存,建议使用 RTX 3090/4090/A6000 或更高。
- 量化:可使用 GPTQ、GGUF 等量化技术降低显存占用(如 4-bit 量化)。
- Docker:生产环境建议使用 Docker 镜像(如 HuggingFace TGI 镜像)避免环境冲突。
八、快速测试命令
# 安装依赖
pip install torch transformers accelerate
# 运行一个测试模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "meta-llama/Llama-3-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
总结:推荐组合
| 组件 | 推荐版本 |
|---|---|
| Ubuntu | 22.04 LTS |
| Python | 3.10 |
| CUDA | 11.8 |
| PyTorch | 2.3.0 + cu118 |
| 大模型框架 | Hugging Face Transformers 或 vLLM |
如果你有具体的模型(如 Llama 3、ChatGLM、Qwen 等)或硬件配置(显存大小、GPU 型号),可以提供更多信息,我可以给出更精准的建议。
云计算导航