RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试

花糕2025-08-15 22:1613952分钟原创声明，未经作者许可禁止转载

跑的FP16的精度，262K完整上下文，78tps，和单卡32K上下文时候一样，都是 78tps。可能这就是4090跑Q3 30B的极限了。

测试环境

项目配置

GPU：8 × NVIDIA GeForce RTX 4090（24GB 显存）

CPU：Intel Xeon 128核

内存：512GB

CUDA 版本：12.6

驱动版本：560.35.03

操作系统：Ubuntu 22.04 LTS

推理框架：vLLM 0.10.0

模型：Qwen/Qwen3-30B-A3B-Instruct-2507（fp16）

模型来源：ModelScope

tensor-parallel-size 8：8 卡并行，充分利用计算资源

dtype half：使用 FP16 精度，平衡速度与显存

gpu-memory-utilization 0.8：预留 20% 显存防 OOM

支持 262K 上下文，满足长文本需求

使用自研压测脚本 vllm_bench.py，支持命令行指定并发数：

python3 vllm_bench.py -c 100

单请求 TPS（tokens/sec）：衡量响应速度

总吞吐 TPS：衡量系统整体处理能力

平均延迟：用户感知的响应时间

显存占用：监控资源使用情况

测试并发数覆盖：1、2、3、4、5、10、20、50、100、1000。

/static/a5b59ce95547912137afd8bb33dbc90e9910ec7517679782eb78c808e71d2012.png

/static/d8d37fc4a61492d35540947cad37ffd26fb9f80e1b0f5594d5848bede5bf4dd3.jpg

/static/a4cb3b2aa2bfa00f6adcb1de5304b20852ab6a0e2d233d506008594bf5f978e5.png