DeepSeek-R1 模型在 4 张 NVIDIA RTX™ 5880 Ada 显卡配置下,面对短文本生成、长文本生成、总结概括三大实战场景,会碰撞出怎样的性能火花?参数规模差异悬殊的 70B 与 32B 两大模型,在 BF16 精度下的表现又相差几何?本篇四卡环境实测报告,将为用户提供实用的数据支持和性能参考。
达卯智能全自主研发了基于 MOE 架构的能源大模型,凭借业界独创的能量块数据结构,应用云端大模型+边端智能体相结合的云边协同架构,极大优化了预测和策略模型生成的效率与准确性,相较传统策略算法,得到了大幅度提升。
首次 token 生成时间(Time to First Token, TTFT(s))越低,模型响应速度越快;每个输出 token 的生成时间(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。
在实际业务部署中,输入/输出 token 的数量直接影响服务性能与资源利用率。本次测试针对三个不同应用场景设计了具体的输入 token 和输出 token 配置,以评估模型在不同任务中的表现。具体如下:
使用 DeepSeek-R1-70B(BF16),单请求吞吐量约 19.9 tokens/s,并发 100 时降至约 9.9 tokens/s(约为单请求的 50%)。最佳工作区间为低并发场景(1-50 并发)。
DeepSeek-R1-70B(BF16) 测试结果图表
使用 DeepSeek-R1-32B(BF16),单请求吞吐量达约 39.5 tokens/s,并发 100 时仍保持约 18.1 tokens/s,能够满足高并发场景(100 并发)。
DeepSeek-R1-32B(BF16) 测试结果图表
使用 DeepSeek-R1-70B(BF16),单请求吞吐量约 20 tokens/s,并发 100 时降至约 8.8 tokens/。最佳工作区间为低并发场景(1-50 并发)。
DeepSeek-R1-70B(BF16) 测试结果图表
使用 DeepSeek-R1-32B(BF16),单请求吞吐量达约 39.7 tokens/s,并发 250 时仍保持约 10.6 tokens/s,能够满足较高并发场景(250 并发)。
DeepSeek-R1-32B(BF16) 测试结果图表
使用 DeepSeek-R1-70B(BF16),单请求吞吐量约 18.7 tokens/s,并发 10 时降至约 10.9 tokens/。最佳工作区间为低并发场景(10 并发)。
DeepSeek-R1-70B(BF16) 测试结果图表
使用 DeepSeek-R1-32B(BF16),单请求吞吐量达约 37 tokens/s,并发 25 时仍保持约 15.3 tokens/s,能够满足中等并发场景(25 并发)。
DeepSeek-R1-32B(BF16) 测试结果图表
DeepSeek-R1-70B(BF16) 模型表现:
DeepSeek-R1-32B(BF16) 模型表现:
基于 4 卡 RTX 5880 Ada GPU 的硬件配置下:
本次基准测试在统一硬件环境下完成,未采用任何专项优化策略。
如需部署 DeepSeek 671B 完整参数版本,欢迎联系丽台科技获取定制化解决方案:
400-138-8886 | service@leadtek.com.cn