RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试

跑的FP16的精度,262K完整上下文,78tps,和单卡32K上下文时候一样,都是 78tps。可能这就是4090跑Q3 30B的极限了。

测试环境

项目配置

GPU:8 × NVIDIA GeForce RTX 4090(24GB 显存)

CPU:Intel Xeon 128核

内存:512GB

CUDA 版本:12.6

驱动版本:560.35.03

操作系统:Ubuntu 22.04 LTS

推理框架:vLLM 0.10.0

模型:Qwen/Qwen3-30B-A3B-Instruct-2507(fp16)

模型来源:ModelScope

关键参数说明:

tensor-parallel-size 8:8 卡并行,充分利用计算资源

dtype half:使用 FP16 精度,平衡速度与显存

gpu-memory-utilization 0.8:预留 20% 显存防 OOM

支持 262K 上下文,满足长文本需求

测试方法

使用自研压测脚本 vllm_bench.py,支持命令行指定并发数:

python3 vllm_bench.py -c 100

测试指标:

单请求 TPS(tokens/sec):衡量响应速度

总吞吐 TPS:衡量系统整体处理能力

平均延迟:用户感知的响应时间

显存占用:监控资源使用情况

测试并发数覆盖:1、2、3、4、5、10、20、50、100、1000。

/static/a5b59ce95547912137afd8bb33dbc90e9910ec7517679782eb78c808e71d2012.png

/static/d8d37fc4a61492d35540947cad37ffd26fb9f80e1b0f5594d5848bede5bf4dd3.jpg

/static/a4cb3b2aa2bfa00f6adcb1de5304b20852ab6a0e2d233d506008594bf5f978e5.png

发布评论
全部评论(4)
最新
最早
加载中...