欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

深度学习安装指南:从GPU到显示器,全套硬件的最新建议-量子比特

2023-04-18 10:12:45 栏目 : 手机数码 围观 : 0次

硬件设备是深度学习者不可缺少的核心装备。初级调参魔法使的各位,有没有感觉到命运的魔法杖欠缺呢?

那么,各种CPU、GPU、内存棒、外设,那么多品牌类型的型号参数,到底该如何选择呢?

为了备齐你能打的装备,Tim Dettmers这个扭曲果实的哥哥把自己一年组装了7台工作站的安装经验总结成一个实用的攻略共享,确定了硬件的选定。然后根据今年的新硬件做了推荐。

那么,让我们从GPU开始,依次看看应该如何选择各重要部件。全文超过5000字,预计阅读时间为11分钟。当然,文末还准备了“精华列表”~

GPU图形(GPU)是深度学习的重要部件,比CPU更重要。由于不使用GPU而只使用CPU进行深度学习显然是不明智的,因此作者Tim首先介绍了GPU的选择。

可选GPU包括性价比、内存和散热三个注意事项

使用16 bit的RTX2070或RTX2080Ti性价比更高。另外,也可以在eBay中购买二手32bit GTX1070、GTX1080或1080Ti。

不仅是GPU核心,图形内存(GPU RAM)也是不可忽视的部分。RTX在图形内存方面优于GTX系列显卡,如果使用相同的图形内存,RTX可以训练两倍大小的机型。

通常,显卡内存要求如下:。

想在研究中追求最好成绩时:明确gt;=11 GB; 在研究中寻找有趣的新框架:使gt显化;=8 GB; 其他研究:8GB;Kaggle竞赛:4-8GB;创业公司:8GB(取决于具体应用程序的型号大小)公司:构建原型8GB,进行11GB以上的培训时需要注意。如果您购买了多个RTX显卡,请不要忽略散热。由于两个显卡堆叠在相邻的PCI-e插槽中,GPU很容易过热并下变频,性能可能会降低30%。这个问题以后会具体讨论的。

要选择内存(RAM),有时钟频率、容量两个参数。这两个参数哪个更重要?

时钟频率

提高内存时钟频率是厂家常用的营销手段,宣传内存越快越好,实际上是这样吗?

著名的数字博主Linus Tech Tips会诱惑厂商购买“更快”的RAM,但实际上性能几乎没有提高。

内存频率与数据迁移到图形内存的速度无关。提高频率最多只能提高3%的性能。我们把钱花在别的地方吧。

存储容量

内存大小不会影响深度学习的性能,但可能会影响GPU代码的执行效率。如果内存容量稍大,则CPU可以直接与GPU交换数据,而无需通过磁盘。

因此,用户必须具备适合GPU图形内存的内存容量。如果有24GB的图形内存Titan RTX,至少应该有24GB的内存。但是,如果有更多的GPU,就不一定需要更多的内存。

Tim存储器被认为与是否能够集中资源并解决更困难的编程问题有关。有了更多内存,您就可以集中精力解决更紧迫的问题,而不用花太多时间解决内存瓶颈。

他还在参加Kaggle的比赛中,发现额外的内存对特征项目非常有用。

CPU过于关注CPU的性能和PCIe通道数,是常见的认知错误。用户应关注处理器和主板组合同时运行的GPU数量。

CPU和PCIe

人们对PCIe频道的执着近乎疯狂!实际上对深度学习的性能几乎没有影响。

如果只有一个GPU,PCIe通道的作用只是将数据从内存快速传输到图形内存。

ImageNet中的32张图像(32x225x225x3、在16个信道上传输需要1.1毫秒、8个信道2.3毫秒、4个信道4.5毫秒。

这些都是理论数字,实际上PCIe的速度只有理论的一半。由于PCIe信道通常具有纳秒级延迟,因此可以忽略延迟。

Tim使用32张ImageNet图像的mini-batch,测试了训练ResNet-152模型所需的传输时间:

向前和向后传输:216毫秒16个PCIe通道CPU-gt;GPU传输:约2毫秒(理论上为1.1毫秒)8个PCIe信道CPU-gt;GPU传输:约5毫秒(2.3毫秒)4个PCIe信道CPU-gt;GPU传输:大约9毫秒(4.5毫秒),因此在总使用时间内,4到16个PCIe通道的性能提高了约3.2%。但是,如果PyTorch的数据加载程序具有固定内存,则性能将提高到0%。因此,使用单个GPU时,不要在PCIe通道上浪费金钱。

选择CPU PCIe通道和主板PCIe通道时,请确保所选组合支持所需的GPU数。如果您想购买支持两个GPU的主板并使用两个GPU,请购买支持两个GPU的CPU,但不一定要检查PCIe通道的数量。

PCIe信道与多GPU并行计算

在多个GPU培训网络时,PCIe通道是否重要?Tim根据ICLR2016发表的论文https://arxiv.org/ABS/1511.04561、96个GPU,PCIe通道非常重要。

但是,如果GPU数小于4个,则不必在意PCIe信道。几乎没有人同时运行四个或更多GPU,所以不要在PCIe通道上浪费钱。这不重要!

CPU内核数

要选择处理器,首先要了解处理器与深度学习之间的关系。

处理器在深度学习中扮演什么角色?在GPU上运行深度网络时,CPU几乎不进行计算。CPU的主要作用是(1、GPU函数调用的启动)2、CPU函数的执行。

到目前为止,CPU最有用的应用程序是数据预处理。两种通用数据处理策略具有不同的处理器要求。

第一种策略是训练时进行预处理,第二种是训练前进行预处理。

第一种策略是高性能的多核处理器,可显著提高效率。建议每个GPU至少有四个线程。这意味着将为每个GPU分配两个CPU核心。Tim每次向GPU添加核心时,预计可获得约0-5%的额外性能提升。

第二种策略不需要非常出色的处理器。建议每个GPU至少有两个线程。也就是说,您将为每个GPU分配一个CPU核心。此策略不会让更多的核心显著提高性能。

CPU时钟频率

4GHz的CPU性能比3.5GHz强吗?同一架构的处理器比较通常是正确的。然而,不同架构的处理器之间无法轻松比较频率。CPU时钟频率不一定是衡量性能的最佳方法。

对于深度学习,处理器不太参与计算。增加变量、评估布尔表达式或在GPU或程序中进行函数调用。所有这些都取决于CPU核心的时钟速率。

您可能会认为这个推论是明智的,但是即使运行了深度学习程序,处理器的使用率也是100%。这里的问题是什么?Tim进行CPU的下变频实验以找到答案

处理器下变频对性能的影响:

请注意,这些实验是在几个“上古”CPU(2012年推出的第三代core处理器)上进行的。但是,它应该仍然适用于近年来上市的CPU。

硬盘固态硬盘)硬盘通常不限制深度学习任务的执行,但如果你忽视硬盘的角色,你可能会追上你或后悔。

如果从硬盘读取的数据速度只有100MB/s秒,请想象加载由32张ImageNet图像组成的mini-batch需要185毫秒。

相反,如果在使用数据之前异步检索数据,这些mini-batch数据将在185毫秒内加载,而ImageNet上大多数神经网络的计算时间约为200毫秒。因此,在计算状态时加载以下mini-batch不会损害性能。

Tim哥哥推荐的是固态硬盘(SSD),我认为SSD既容易入手又高效。与普通硬盘相比,固态硬盘程序启动和响应更快,大容量文件预处理速度更快。

包装体验为NVME SSD,比普通SSD更流畅。

一个电源程序员对电源最基本的期望将首先满足各种GPU所需的能量。随着GPU的功耗更低,优质的电源将与您一起走得更长。

我该怎么办。Tim哥哥有一种方法,将计算机CPU和GPU的功率相加,再加上10%的功率,作为其他组件的功耗进行计算,可以获得功率峰值。

例如,如果每个GPU分别具有4个250瓦GPU和1个150瓦CPU,则电源为4×250+150+100=1250瓦的电量。

Tim通常在此基础上再追加10%确保万无一失,但需要合计1375瓦。在这种情况下,电源性能必须达到1400W。

像这样手把手地教,应该不难理解。另一个需要注意的是,即使电源达到所需的瓦特数,PCIe8-pin或6-pin的连接器也可能不够,所以在购买时,必须确保有足够电源的连接器连接到GPU。

此外,如果您需要连接更多GPU,并且可能需要长时间运行,您将了解为什么要购买能效更高的电源。

举个例子吧。当4GPU系统以全功率(1000到1500瓦)运行时,需要300到500度的功率才能在两周内训练卷积神经网络。以德国一度0.2欧元计算,电费最终消费约相当于455-766元。

如果电源效率降低到80%,电费将增加140-203元。

所需GPU的数量越多,差距就越明显。电源的选择是否比之前想象的复杂。

CPU和GPU的冷却对于热生产巨头CPU和GPU来说,如果散热性差,性能就会下降。

对于处理器来说,标准散热器或AIO水冷散热器是一个不错的选择。

但是GPU应该使用哪种散热方案,是一件复杂的事情。

风冷散热

仅使用一个GPU,空冷是安全可靠的,但是当GPU达到3到4个时,空冷可能无法满足需求。

由于当前GPU在执行算法时速度最大,功耗也达到最大值,一旦温度超过80℃,降低速度的可能性很高,无法实现最佳性能。

深度学习任务中这种现象更为普遍,一般的散热风扇远不及所需的效果,运行几秒钟就达到温度阈值。如果使用多个GPU,性能可能会降低10%-25%。

怎么办?目前,英伟达GPU大多是针对游戏而设计的,因此专门针对Windows系统进行了优化,风扇的设置也很容易。

但是,Linux系统不能使用这个。麻烦的是,许多深度学习库也是为Linux创建的。

这是一个问题,但不是无解的。

在Linux系统中,可以配置Xorg服务器并选择“coolbits”选项。这对单一GPU来说也很有效。

如果您拥有多个GPU,则必须模拟显示器。Tim哥哥说他尝试了很久,但还没有改善。

在空冷环境下运行3-4小时时,请最注意风扇的设计。

现在市售的散热风扇的原

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签