在刚刚开幕的NVIDIA GTC 2025大会上,英伟达抛出了一枚重磅炸弹:其全新NVIDIA Blackwell DGX系统成功拿下DeepSeek-R1大模型推理性能的世界纪录。这不仅是对自家硬件实力的又一次炫技,也让业界对Blackwell架构的潜力刮目相看。
具体来说,这套搭载8块Blackwell GPU的DGX系统,在运行6710亿参数的“满血版”DeepSeek-R1模型时,单用户响应速度能达到每秒超250 token,而系统整体吞吐量更是高达每秒3万token。这样的性能表现,堪称当前大模型推理领域的“天花板”。英伟达还透露,未来随着Blackwell Ultra GPU的加持,这一数字有望继续攀升。
回顾今年1月至今,英伟达通过软硬件协同优化,已将DeepSeek-R1的吞吐量提升了惊人的36倍。相比上一代Hopper架构,Blackwell搭配TensorRT软件在推理性能上实现了质的飞跃。比如在DGX B200平台上,运行TensorRT并采用FP4精度的DeepSeek-R1、Llama 3.1 405B和Llama 3.3 70B模型,吞吐量较DGX H200提升了3倍以上。这种进步,离不开英伟达在低精度计算上的深耕——通过TensorRT Model Optimizer的FP4量化技术,模型在大幅提速的同时,精度损失几乎可以忽略不计。
对于AI行业来说,这意味着什么?更高的推理效率不仅能降低部署成本,还能让大模型更快服务于实际场景。英伟达显然在用硬核数据告诉大家:Blackwell不只是硬件升级,而是AI计算的一次革命。你认为这一波操作会如何影响大模型的未来发展?