• 加入比较表

NVIDIA A100

NVIDIA A100 Tensor核心GPU为各种规模的人工智能、资料分析和高效能运算(HPC)作业提供前所未有的加速能力,以解决全球最严苛的运算挑战。

NVIDIA A100

全新一代


前所未有的加速力

6 大功能特点

NVIDIA AMPERE架构

HBM2 存储器

第三代的Tensor核心

多实例GPU(MIG)

稀疏优化

新一代的NVLINK技术

加速现今最重要的工作

NVIDIA A100 Tensor核心GPU为各种规模的人工智能、资料分析和高效能运算(HPC)作业提供前所未有的加速能力,以解决全球最严苛的运算挑战。作为NVIDIA资料中心平台引擎,A100可有效率地扩充到数千个GPU,若采用NVIDIA多实例GPU(MIG)技术,则可将A100分割为七个GPU执行个体,加速各种规模的工作负载。第三代Tensor核心可加速多种工作负载的各种精度,加快获得深入分析及产品上市的时间。

最强大的端对端人工智能和HPC资料中心平台

完整的NVIDIA资料中心解决方案系列包含硬件、网络、应用软件、函式库的建置组块,以及NGC™上的最佳化人工智能模型和应用程序,而A100是当中的一份子。它是最强大的资料中心端对端人工智能和HPC平台,可以让研究人员提供实际结果,并将解决方案大规模部署到正式环境中。

稀疏优化 效能加倍

人工智能网络很庞大,拥有数百万至数十亿个参数。并非所有的参数都需要用于做准确的预测,可以将某些参数转换为零以使模型「稀疏」而不会影响准确性。

A100中的Tensor Core可以为稀疏模型提供高达2倍的效能。虽然稀疏性功能更容易使AI推论受益,但它也可以提高模型训练的效能。

多实例GPU 最佳化GPU使用率

一个A100 GPU可以划分为多达七个GPU应用个体,它们在硬件层完全隔离,并拥有专属的高频宽存储器,缓冲存储器和运算核心。多实例 GPU(MIG)为开发人员提供了针对其所有应用程序的突破性加速功能,IT管理员可以为每个作业提供适当大小的GPU加速功能,从而优化利用率并扩展对每个用户和应用程序的使用权限。

NVIDIA AMPERE架构

A100可加速各种大小的工作量, 无论是使用多实例 GPU(MIG)将A100 GPU划分为较小的GPU应用个体,还是使用NVLink连接多个GPU来加速大规模工作负载,A100都可以轻松满足不同规模的加速需求,从最小的工作到最大的多节点工作负载。 A100的多功能性意味着IT经理可以全天候地最大化其资料中心中每个GPU的利用率。

新一代的 NVLINK技术

与上一代产品相比,A100中的NVIDIA NVLink的吞吐量提高了2倍。 与NVIDIA NVSwitch™结合使用时,可以以高达600 GB /秒的速度互连多达16个A100 GPU,进而在单个服务器上实现最高的应用程序性能。 NVLink可通过HGX A100服务器主板在A100 SXM GPU中使用,而透过NVLink Bridge在PCIe GPU中则可连结最多2个GPU。

第三代的Tensor 核心

A100可提供312 teraFLOPS(TFLOPS)的深度学习性能。 与NVIDIA Volta™GPU相比,用于深度学习训练有20倍Tensor FLOPS 的效能和用于深度学习推理有20倍Tensor TOPS的效能。

HBM2存储器

具备40 GB的高频宽存储器(HBM2),A100提供了1.6TB /秒的改进原始频宽,以及高达95%的动态随机存取存储器(DRAM)利用率。A100提供的存储器频宽是上一代产品的1.7倍。

深度学习训练

随着人工智能模型处理更高一级的挑战,例如精确的对话式人工智能和深度推荐系统,其复杂度也急剧增长。训练模型需要极强大的运算和扩充能力。

若使用精度为Tensor Float (TF32)的NVIDIA A100 第三代Tensor核心可在完全不变更程序码的情况下,提供比上一代产品高20倍的效能,若使用自动混合精度还可进一步提高2倍。与第三代NVIDIA NVLink 、NVIDIA NVSwitch™、PCI Gen4、NVIDIA Mellanox InfiniBand和NVIDIA Magnum IO™应用软件 SDK 搭配使用时,还可能扩充到数千个 A100 GPU。这表示像BERT这样的大型人工智能模型在1024个A100组成的丛集上只需37分钟即可完成训练,提供前所未有的效能和扩充能力。

NVIDIA 的训练领先地位在人工智能训练的第一个业界基准测试MLPerf 0.6中展露无遗。

深度学习推论

A100带来创新功能以最佳化推论工作负载。其可从FP32、FP16、INT8以及一路到INT4的全精度范围进行加速,提供前所未有的多样性。多实例 GPU(MIG)技术可让多个网络在单一A100 GPU上同时运作,以最佳的方式使用运算资源。除了A100提升的其他推论效能以外,结构性稀疏可提供高达2倍的效能。

NVIDIA早已提供领先业界的推论效能,从我们在第一个业界推论基准测试MLPerf Inference 0.5中一率领先他品牌的佳绩即可窥知。A100 提供的10倍效能将进一步扩大NVIDI 的领先地位范围。

高效能运算

为了找出更新的发现,科学家希望透过模拟以更加了解药物开发的复杂分子、透过物理来寻找潜在的新能源,以及大气资料以更准确预测天气,并为极端天气做好准备。

A100带来的双精度Tensor核心,是自从将GPU引入HPC双精度运算技术以来最大的里程碑。原本研究人员透过NVIDIA V100 Tensor核心GPU执行双精度模拟需耗时10个小时,透过A100将可缩短为4个小时。在执行单精度矩阵乘法作业时,HPC应用程序还可以利用A100 TF32精度的 Tensor核心提供高达10倍的输送量。

资料分析

客户需要能够分析、视觉化,并将庞大资料集转换成深入分析。但是,由于这些资料集分散在多个服务器上,因而经常无法实行扩展解决方案。

使用A100的加速服务器可提供所需的运算能力,包含每秒1.6 TB(TB/秒)的存储器频宽、第三代 NVLink和NVSwitch的扩充能力,来处理这些庞大的工作负载。NVIDIA资料中心平台结合Mellanox InfiniBand、Magnum IO SDK、GPU加速的Spark3.0和RAPIDS™ (GPU加速资料分析专用的应用软件套件),NVIDIA资料中心平台能用前所未有的效能和效率加速这些庞大工作负载。

适用于企业

运用(MIG)的 A100 可将 GPU 加速的基础架构使用率提高到前所未见的程度。MIG 可将 A100 GPU 安全地分割成多达七个独立的执行个体,让多名使用者存取 GPU 加速来执行他们的应用程序和开发项目。此外,NVIDIA 虚拟化运算服务器 (vComputeServer) 还可让资料中心管理员在 MIG 执行个体上获得虚拟机管理器架构服务器虚拟化的管理和营运优势。MIG 让基础架构管理员能以更有效细致的方式布建 GPU 资源,为开发人员提供适用的运算能力,并确保善用所有 GPU 资源。

 
NVIDIA A100
深度学习、HPC与资料分析旗舰首选

A100平台能为超过700种HPC应用项目及各种主要深度学习架构加速。 其使用范围从桌上型计算机到服务器,再至云端服务,能提供大幅提升效能与节省成本的机会。

 

GPU 架构 Ampere
存储器界面 5120-bit
存储器频宽 1.6TB/sec
GPU存储器 40GB HBM2
双精度效能 FP64 9.7 TFLOPS
FP64 Tensor 核心 19.5 TFLOPS
单精度效能 FP32 19.5 TFLOPS
FP32 Tensor 核心 156 TFLOPS | 312 TF*
半精度效能 FP16 Tensor 核心 312 TFLOPS | 624 TF*
整数效能 INT8 INT4
624 TOPS | 1248 TOPS* 1248 TOPS | 2496 TOPS*
错误更正码 支援
互连界面 NVIDIA NVLunk 600 GB/s**
PCIe Gen4 64GB/s
多实例GPU(MIG) 最高七个5GB不同容量的执行个体
最大功耗 250W
系统界面 PCIe 4.0
散热解决方案 被动散热座
运算APIs CUDA®, DirectCompute, OpenCL™, OpenACC®


  • 本网站所提到的产品规格及资讯,若有变动恕不另行通知,一切以购买产品彩盒上的标示为准。
  • 上述商品规格仅供参考,实际规格以实物为准,丽台科技保留修改的权利。上市商品将视各区市场状况而异,请与您的供应商确认实际出货产品。
  • 本网页所标示附赠的转接器、电缆和软件等资讯仅供参考,丽台保有调整变动的权利,若有更动恕不另行通知。
  • 上述提及的所有品牌及产品名称皆为各所属公司的商标。