非常抱歉,我要食言了。
第一次,我买了AMD的RX550显卡(前人栽树:失败的服务器显卡操作),经过我和售后技术的不懈努力,最终驱动失败;第二次,我买了NVIDIA的GT730显卡(前人又栽树:第二次失败的服务器显卡直通操作),驱动安装没问题了,但是调用显卡就会蓝屏,还是以失败告终。
经过前两次显卡直通的教训,我本打算不再搞显卡了,但是这不是人工智能最近火的一塌糊涂,我也想接触一下,所以又重燃了再次尝试的激情。
首先,我发现之前梳理的显卡适配关系是错的。原因很简单,忽略了显卡的尺寸问题,我这种1 U高的服务器只能插刀片卡。
后来,从官网得知,我这款服务器一共可以支持4款GPU,如下所示:
后来好像又更新支持了Quadro P4000,汇总5款显卡的对比信息如下:
通过对比,我们可以首先可以从架构、接口、带宽等方面淘汰掉K2200这个显卡,然后从经济型考虑,M4的优势相对明显。然后我就深入了解了一下这张卡,Tesla在宣传M4的时候称其为“全球首款专为超大规模服务器设计的加速器”,它采用小型低功耗设计,可加快应用程序吞吐量,将数据中心成本削减一半,并为深度学习推理和视频工作负载提供比CPU高5倍的高效处理能力。
另一方面,我在查这款显卡的时候发现,描述里介绍其似乎是专门给ProLiant DL360 Gen9设计的。
那还等什么?买,必须买!
在小黄鱼上收了一张成色一般的二手卡,外观长这样。
工欲善其事,必先利其器。为了搞好环境,先给服务器扩个内存,把之前的128 GB升级到160 GB。搞过显卡直通的小伙伴肯定都知道,PCI直通需要预留全部内存。
我们在开箱的时候介绍过(惠普DL 360 GEN9服务器开箱),DL360 Gen9一共有24根内存插槽。
推荐的内存安装顺序如下,先按照颜色“白、黑、蓝”的顺序插,每个颜色再按照字母的顺序排序。
但是ILO中展示的顺序为数字顺序,正常来讲,数字的顺序应该是12、9、1、4、11、8、2、5、10、7、3、6,当然也要注意前后方向,不然也有可能插错,像下面这样。
意外发现这次买的三星的内存条竟然都是HPE SmartMemory,之前买的内存都是海力士的,都不支持,感觉有点亏啊。
GPU插上之后,显示的设备名称是Video Controller,怎么说呢,M4又没有视频输出,叫图形卡好像不那么合适了。
趁此机会,我把iLO固件也升级了一下(惠普HPE服务器升级iLO4固件版本),去年升级的2.80,现在又有了新版本2.82,捎带还能装个中文语言包。
再优化一下内存插槽顺序,如下所示:
其实,官网还有显卡的驱动,不过这个362.27确实太老了。
都配置好之后,就可以服务器开机了。
在“管理”的“硬件”页签下面,可以看到我们新插的显卡,型号识别为GM206GL(Tesla M4),默认的“直通”状态为禁用。
选中这个硬件,点击“切换直通”按钮,“直通”状态就显示为“已启用/需要重新引导”了。
接下来,重启服务器。重启之后“直通”状态就变为“活动”了,可以正常使用了。
然后就是在虚拟机的虚拟硬件中,点击“添加其他设备”,选择“PCI设备”,因为只有一个选项,所以自动就把GPU展示出来了。
这里有几个需要注意的地方,比如启用了嵌套硬件虚拟化的虚拟机无法添加PCI直通设备,需要关闭。
又比如添加PCI设备的虚拟机要配置预留所有客户机内存。
只要在虚拟机内存配置中勾选全部锁定即可。
然后在NVIDIA官网,选择合适的版本进行下载。
这里的CUDA我们暂不考虑,直接下载官方推荐的即可,只是没想到竟然是最新版本,直接安装吧。
没有报错,一次通过。而且鲁大师可以正常识别显卡参数配置。
NVIDIA控制面板只有系统信息可以展示,不能配置显示配置,展示配置与官网参数基本一致。不过这个4 GB转换为MB就成了3840了,有点虚标。
使用最新版的GPU-Z进行检测,参数配置基本一致,不过功能配置官网宣传的是NVIDIA CUDA、DirectCompute、OpenCL和OpenACC,这里没有OpenACC选项,DirectCompute没有被选中,原因不明。
因为该GPU没有散热风扇,只能被动赛尔,所以温度稍微有点高。
从iLO视图查看,直接读取的PCI-1区域温度是40度,附近的最高温度是64度,散热是真跟不上啊!
因为没有办法配置显示输出,所以目前还没有办法跑分测试。
有哪个小伙伴知道不用显示就能测试GPU性能的工具吗?
声明:文中观点不代表本站立场。本文传送门:http://eyangzhen.com/315956.html