标签:服务器,人工智能,浪潮,GPU,
2017年3月5日上午,国务院总理李克强发表2017政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”也首次被写入了全国政府工作报告。结合上月科技部新闻-“科技创新2030—重大项目”或将新增“人工智能2.0”,人工智能在中国的政治、经济、学术领域都成为重中之重。因此,可以预言,这是中国 AI人最好的时代——2017年,中国人工智能迎来真正的新纪元。
协处理计算加速是人工智能最佳架构
深度学习概念和浅层学习算法已经被提出多年,而人工智能近年才开始逐渐升温,原因为何?因为人工智能技术进步受限于相关软件、硬件、算法等性能。特别是人工智能硬件的变革:20世纪90年代,神经网络的概念就成为热点,但是受限于软硬件计算平台的限制,十余年间的进展极其缓慢,直到以GPU为核心的协处理加速设备的应用,人工智能应用效率才得以大大提升。
正如百度首席科学家吴恩达所言:“大概在十年前我们都通过普通的CPU进行深度学习的训练,当时大概有100万的连接,进步是非常慢的。2008年的时候我们写了第一篇在CUDA(GPU平台上)上进行神经网络训练的文章,当时是斯坦福大学的一个研究,已经有了10倍的转变。”
▲相比CPU,更多核心的GPU更适合人工智能应用
GPU\FPGA\MIC带来新的技术飞跃
从内部结构上来看,CPU 中 70%晶体管都是用来构建 Cache和一部分控制单元,负责逻辑运算的部分并不多,控制单元等模块的存在都是为了保证指令能够一条接一条的有序执行,这种通用性结构对于传统的编程计算模式非常适合,但对于并不需要太多的程序指令,却需要海量数据运算的深度学习的计算需求,这种结构就显得有心无力了。
与 CPU 少量的逻辑运算单元相比,GPU\FPGA\MIC这种协处理加速设备整个就是一个庞大的计算矩阵,动辄具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。
目前,高性能的GPU+CPU架构服务器已经成为实现深度学习必不可少的基础硬件。但是,市场上目前有不同厂商提供的GPU服务器,例如:2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服务器形态。如何做好选择,搭建最合理的训练架构,是开启深度学习之路的第一步,这一步也会关系到后期训练的性能。
浪潮GPU服务器在国内主流人工智能企业市场占有率超过80%。其中NF5568M4这种4U4卡的机型备受BAT在内的领先企业青睐,这是为何?
▲浪潮NF5568M4 GPU服务器
性能为王,但仍需考虑适用性
多卡GPU+CPU架构需要大量的GPU核心数,在单机内的选型原则,以最多卡数为主。理论上,单机越多GPU卡的堆叠,性能也会达到更高。但是,每块GPU卡的功耗在235W—250W左右,加上服务器的CPU和其他部件,一台4卡GPU机器在工作状态会达到近2000W的功率,而8卡的甚至能达到3600W以上。
目前,大部分公司的机房都是租赁的IDC机房,现在国内机房提供的机柜一般为42U高度,电量10A,13A或者16A,换算为功率就是2200W,2860W或者3520W。而42U的机柜用电,被4U高度的GPU全部占用,这显然不能被接受。因此,像浪潮NF5568M4这类单机4块GPU卡的配置是目前互联网行业的主流,既能达到足够的计算能力,又能兼顾机房用电。
4U高度,给热空气一点出路
一台4卡GPU服务器在工作状态会达到近2000W的功率,而8卡的甚至能达到3600W以上,如此大的功率就有大量的散热需求,一般情况下,GPU卡和服务器风扇的设计比例是1:1,以满足散热需求。但是根据实测1U或2U高度的服务器,一旦达到4卡或8卡跑满,整机温度曾经飙升到96摄氏度!
为了解决散热问题,只能大幅度的提高机器风扇的转速,这样会大大提高机器的功耗,功耗问题还是其次,问题是提高风扇转速之后带来较大的噪音和震动,会严重缩减机器的寿命,甚至会发生宕机,给业务带来严重影响。另外1U、2U由于空间受限,也会对扩展能力产生影响,没有办法实现双网卡+RAID保护功能。
浪潮NF5568M4拥有4U的高度,因此内部有更多的空间和通道用于散热,并且单机设计了多达10个散热风扇,给热空气留一点出路,也就为GPU卡降低一点温度。
硬件性能的发挥,更需要软件的调优
为什么GPU服务器有如此好的性能,但是采用GPU作为协处理器加速的企业却屈指可数?因为单纯有了可靠的硬件平台还不够,还要将自己的业务应用能迁移到GPU上去,并且需要经过专业的软件调优,最大的发挥GPU的性能。
目前很多互联网公司希望运用GPU来加速其业务,但是由于没有专门的软件移植工程师,因此并不能发挥出GPU的并行计算性能。因此他们希望能有一套软硬一体化的解决方案,能够将自己的业务快速的部署到GPU集群中。为此,浪潮成立专门针对深度学习的软件开发团队,具备10万核以上CPU+GPU的大规模并行算法设计、程序开发和软件调优能力,并通过自主研发的开源版本CAFFE-MPI和ClusterEngine高性能计算管理平台,面向人工智能和深度学习,帮助用户进行软件移植、算法调优等工作,加速深度学习应用在更多领域和企业落地。
目前,包含GPU服务器、FPGA定制硬件、caffe-MPI框架等在内的浪潮人工智能相关解决方案在国内主流AI领域的占有率超过80%,为百度、阿里巴巴、腾讯、奇虎、搜狗、科大讯飞、今日头条、Face++等领先企业提供基于GPU/FPGA/KNL等协处理加速服务器和caffe-MPI等软件、算法优化服务,加速中国人工智能应用的发展。
|