DGX-1 实现深度学习的最佳性能 DGX-1在训练流行深层神经网络的出色性能表现,充分体现了深度学习综合系统的价值。图8中的曲线图显示,利用Microsoft Cognitive Toolkit、TensorFlow和Torch的ResNet-50和ResNet-152深层神经网络,与具有相同GPU的现有系统相比,DGX-1的训练明显更快了。该图说明了以下两大优点:
图8:采用所有8台Tesla P100s 的DGX-1深度学习训练与通过PCI-e互联,基于流行的CNTK(2.0 Beta5)TensorFlow(0.12-dev)和Torch(11-08-16)深度学习框架部署ResNet-50和Resnet-152深层神经网络架构的8台Tesla M40和Tesla P100系统进行对比。该训练针对ResNet-50采用32位浮点运算,总批量规模为512位;同时针对ResNet-152的批量规模为128位。其他软件包括NVIDIA DGX容器版本16.12、NCCL 1.6.1、CUDA 8.0.54、cuDNN 6.0.5和Ubuntu 14.04。 NVIDIA Linux显示驱动程序为375.30。 8x M40和8x P100 PCIe服务器具有双英特尔至强Xeon E5-2698v4 CPU和256GB DDR4-2133 RAM(DGX-1具有512GB DDR4-2133)的SMC 4028GR。
DGX-1的高性能部分归功于互联在8台Tesla P100 GPU之间的NVLink混合立方体网格,但还并不止这些。DGX-1的许多性能优势源自其是一个集成系统,具有针对深度学习的完整软件平台。这包括深度学习框架优化,例如NVIDIA Caffe、cuBLAS、cuDNN和其他GPU加速库中的优化,以及通过NCCL进行的NVLink协调集体通信。该集成软件平台与Tesla P100和NVLink完美结合,确保DGX-1远远优于同类现有系统。
|