谷歌脑的新算法，能够不折腾TPU而加快AI训练速度-量子比特

2023-04-18 08:47:56 栏目 : 科技资讯大全围观 : 0次

训练神经网络硬件太硬了吗？现在谷歌进行着强有力的反驳。

诸如GPU和谷歌TPU这样的硬件加速器大大加快了神经网络的训练速度，推动了AI的快速增长，并在各个领域发挥超能力。

但无论硬件发展多么迅速，总有漏洞。

例如，由于芯片的架构方式，像数据预处理这样的培训pipeline的初始阶段不会受益于硬件加速器的提升。

谷歌大脑科学家们不想看到算法对硬件的干扰。因此，研究了一种叫做“数据再生（Data Echoing）”的新技术。

加快神经网络的训练速度，这次不靠折腾半导体。

新加速方法的核心在于减少训练pipeline初始阶段消耗的时间。

根据经典的训练pipeline，AI系统首先读取输入数据进行解码，然后将数据混洗，应用转换扩展数据，然后将样本分批收集，对参数进行迭代更新以减少误差。

另一方面，数据Echoing在pipeline中插入一个阶段，在参数更新前重复前一阶段的输出数据，从理论上回收怠速计算力。

在可以忽略重复数据开销、并行地执行echoing的任意一侧的级的情况下，数据再现完成1个上游步骤和e个下游步骤的平均时间

如果假设上游步骤所用的时间大于或等于下游步骤所用的时间，则您会发现额外的下游步骤是“免费的”，因为它利用了空闲的下游容量。

data echoing训练时间缩短的关键在于上游和下游步骤之间的折衷。

另一方面，如果重复数据的价值可能低于新数据的价值，则data echoing需要更多的下游SGD（随机梯度下降）更新以实现预期的性能。

另一方面，在data echoing中，每个下游步骤仅需要1/e的上游步骤。

当由再现系数引起的下游步骤的增加数小于e时，上游步骤的总数减少，总训练时间减少。

影响data echoing在不同插入点的性能的因素有两个。

批处理前播放

在批处理之前再生意味着在采样级别而不是批处理级别重复和混洗数据，这会增加相邻批的不同可能性，因为批处理中的采样可能重复。

数据放大前播放

在扩展数据之前播放重复数据会以不同的方式转换重复数据，并像新数据一样改变重复数据。

研究小组对该方法进行了实验，选择了两个语言模型任务、两个图像识别任务和一个对象检测任务，AI模型由开源数据集训练。

在实验中，“新”训练样本的数目达到指定目标的时间可以是训练时间，其中训练样本从磁盘中被读取并且创建新样本。同时，研究人员还将调查data echoing是否减少了所需的样本数量。

除ImageNet训练的ResNet-50外，data echoing的效率高于基线方法。更快地在pipeline中插入echoing会减少培训所需的新样本。

另一方面，随着批大小的增加，对基线方法的data echoing的改进更明显。

摩尔随着规律走向终结，芯片制造技术的突破使得实现人工智能计算能力的提高越来越困难，虽然有硬件加速器的加持，但CPU这样的通用处理器仍然是神经网络训练速度进一步提高的障碍物。

另辟蹊径，用算法性能突围，正在成为新sexy。

论文地址：https：//arxiv.org/abs/1907.05550

-结束了

展开剩余内容

分享到：

标签数据训练

上一篇：调谐人神器2.0发布，建立Python机器学习模型只需要几行代码-量子比特下一篇：比较手势，AI识别Emoji，在浏览器上奔跑：开源，推特2.8万赞-量子比特

谷歌脑的新算法，能够不折腾TPU而加快AI训练速度-量子比特

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光网友直呼看不懂急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

谷歌脑的新算法，能够不折腾TPU而加快AI训练速度-量子比特

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光 网友直呼看不懂 急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备 没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

realme预热海报曝光网友直呼看不懂急需大侦探解密

减负必备没有这些AI功能都不好意叫智能手机