在大型模型上将 AI 训练吞吐量提升高达 3 倍
HugeCTR 框架上的 DLRM,精度 = FP16 | 1x DGX A100 640GB 批量大小 = 48 | 2x DGX A100 320GB 批量大小 = 32 | 1x DGX-2 (16x V100 32GB) 批量大小 = 32。归一化为 GPU 数量的加速性能。
AI 推理吞吐量提升高达 1.25 倍
使用 (1/7) MIG 分片测量 MLPerf 0.7 RNN-T。框架:TensorRT 7.2,数据集 = LibriSpeech,精度 = FP16。
吞吐量比 CPU 提升高达 83 倍,比 DGX A100 320GB 提升高达两倍
大数据分析基准测试 | 在 10TB 数据集上运行 30 次分析零售查询、ETL、ML、NLP | CPU:19x 英特尔至强金牌 6252 2.10 GHz,Hadoop | 16x DGX-1(每个 8x V100 32GB),RAPIDS/Dask | 12x DGX A100 320GB 和 6x DGX A100 640GB,RAPIDS/Dask/BlazingSQL。归一化为 GPU 数量的加速性能
每块 GPU 支持 12 个 NVLink 连接,GPU 至 GPU 带宽高达 600 GB/s
双向带宽高达 4.8 TB/s,比上一代产品高出 2 倍
双向带宽峰值高达 500 GB/s
以 3.2 倍核心数量满足超密集的 AI 作业
带宽峰值高达 50 GB/s,比三代 NVME SSD 快两倍
NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和高性能计算 (HPC) 实现出色的加速,应对极其严峻的计算挑战。借助第三代 NVIDIA Tensor Core 提供的巨大性能提升,A100 GPU 可高效扩展至数千块,或在使用多实例 GPU 时,可将其分配为七个较小的专用实例对各种规模工作负载进行加速。
借助 MIG,可将 DGX A100 中的八块 A100 GPU 配置为多达 56 个 GPU 实例,每个实例都具有自己的高带宽内存,高速缓存和计算核心,完全隔离。这使管理员可合理调配 GPU 资源,确保多个工作负载的服务质量。
DGX A100 中的第三代 NVIDIA® NVLink® 使 GPU 至 GPU 直接带宽提高一倍,达到600 GB/s,几乎比 PCIe 4.0 高出 10 倍。DGX A100 还采用新一代 NVIDIA NVSwitch™,其速度是前一代的两倍。
DGX A100 采用最新 Mellanox ConnectX-6 VPI HDR InfiniBand/以太网适配器,每个适配器的运行速度高达200 Gb/s,为大规模 AI 工作负载创建高速网络结构。
DGX A100 集成经过测试和优化的 DGX 软件堆栈,包括通过 AI 调整的基本操作系统、所有必需的系统软件以及 GPU 加速应用、预训练的模型以及 NGC™ 提供的更多功能。
DGX A100 采用多层方法为 AI 部署提供了最强大的安全性,该方法可以保护所有主要的硬件和软件组件,包括自加密驱动、签名软件容器、安全管理和监控等。
GPUs | 8块 NVIDIA® A100 Tensor Core GPUs |
GPU 显存 | 共 320GB |
性能 | 5 petaFLOPS AI 10 petaOPS INT8 |
NVSwitches | 6 |
最大功率 | 6.5kW max |
CPU | Dual AMD Rome 7742, 128 cores total, 2.25 GHz (base), 3.4 GHz (max boost) |
系统内存 | 1TB |
网络 | 8x Single-Port Mellanox ConnectX-6 VPI 200Gb/s HDR InfiniBand 1x Dual-Port Mellanox ConnectX-6 VPI 10/25/50/100/200Gb/s Ethernet |
存储空间 | OS: 2x 1.92TB M.2 NVME drives Internal Storage: 15TB (4x 3.84TB) U.2 NVME drives |
软件 | Ubuntu Linux OS |
系统重量 | 123 千克 |
系统尺寸 | 高:264.0 毫米 宽:482.3 毫米 长:897.1 毫米 |
运行温度范围 | 5°C 至 30°C |