欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

只有快点破不掉!到极限压缩的全二值化BiBERT-量子比特,

2023-04-15 09:33:29 栏目 : 科技资讯大全 围观 : 0次

近年来,预训练语言模型在自然语言处理方面做得很好,但在真实世界的硬件上,其庞大的参数妨碍了实施。

近日,机器学习顶级会议ICLR2022接收论文结果正式公布,至少有9项工作显示了神经网络在量化方向上的相关进展。

本文介绍了实现56.3倍、31.2倍FLOPs和模型大小节约的第一个自然语言任务用的全二值量化BERT模型BiBERT。

这项研究由[北京航空航天大学][刘祥龙]教授小组[南洋理工大学][百度公司]进行。

[2001]预训练的语言模型在自然语言处理方面很出色,但具有大量的参数,妨碍了它们在真实世界中的硬件部署。

现有的模型压缩包括参数化、蒸馏、修剪和参数共享。

其中,参数量化方法通过有效地将浮点参数转换为定点表达式,使模型紧凑。

虽然研究者们提出了q-bert[1]、Q8BERT[2]、GOBO[3]等多项建议,但量化模型仍然面临着表达能力有限和优化困难的严重问题。

幸运的是,知识蒸馏可以更好地解决精度损失问题,作为量化模型辅助优化模仿全精度教师模型的特征表达的惯用手段。

在本文中,来自北航、NTU和百度的研究人员建议BiBERT将权重、激活和嵌入量化为一个比特(不仅将权重量化为一个比特,还将激活保持在四个比特以上)

这样可以在模型推理中使用逐位运算操作,大大加快了将模型放置在实际硬件中时的推理速度。

我们研究了BERT模型二值化过程中的性能损失。作者基于信息理论引入了高效的Bi-Attention(二值注意力)机制。提出定向蒸馏,解决后向传播过程中蒸馏优化方向不一致的问题。

△图1BiBERT的整体图。

首次证明BERT模型的全二值化是可能的。它在GLUE数据集中的准确性远远超过了现有BERT模型的二值化算法,甚至超过了更高的比特表示模型。

在模型的计算量和体积方面,BiBERT理论上会导致56.3倍和31.2倍的FLOPs和模型尺寸的减少。

bi-attention:一种将注意力二值化的机制

在BERT模型的注意机制中,softmax函数得到的归一化注意的权重被视为遵循概率分布,如果直接将其二值化,信息将完全丢失,信息熵将退化为0(参见图2、

△图2softmax函数直接应用二值化时的完全信息丢失

在应用sign函数之前,可以通过移动输入张量的分布来缓解这些信息的降级。

其中,位移参数也被称为二值化阈值,希望二值化后的熵最大化。

softmax函数的排序意味着存在一个固定的阈值,该阈值最大化了二值化表示的熵。

得到Hard Attention的提示[4],作者使用bool函数对注意力权重进行二值化。

通过应用bool函数,注意的权重中值低的要素被二值化为0,所以通过得到熵最大的注意的权重,可以过滤重要部分的要素。

最终的二值注意机制表示如下:。

其中BV是sign函数二值化得到的value值,BA是注意力二值化的权重,是一种很好设计的bitwise-affine矩阵乘法(BAMM)的运算器,由和位移构成,用于对齐训练和推理特征进行有效的位计算。

DMD:定向蒸馏

作者发现注意的权重是两个二值化的激活直接相乘。

因此,决策边缘的值很容易被二值化到另一侧,直接优化注意力权重往往会在培训过程中出现优化方向的不匹配。(参照图3、

▲图3优化方向不一致

因此,作者设计了一个新的蒸馏方案,对上游的Query,Key和Value矩阵,建立类似的矩阵,进行活性蒸馏:

不久| || |“l2正则化。在以往的研究中,这样构建的矩阵忽略了尺度和数值大小的影响,反映了对特定模式网络的语义理解,更稳定地表现了特征间的内生相关关系,更适合二值网络和全精度网络之间的知识传递。”被认为是。

因此,蒸馏损失可以表示为隐含层、预测结果和上述活化相似性矩阵的损失之和:

其中L表示transformer的层次结构

来修改标记元素的显示属性。

作者的实验证明,所提出的[BiBERT]可以很好地解决在GLUE基准数据集任务的一部分中二值化BERT模型精度崩溃的问题,使模型的稳定优化成为可能。

表1说明了所提出的Bi注意和DMD都能显著提高二值化后模型的性能。

△表1熔融实验

在表2和表3中,作者展示了比其他BERT二值化方法,甚至更高比特量化方案更好的[BiBERT]。

(表2BERT的二值化方法的比较(数据增强)

△表3BERT的二值化方法的比较(有数据增强)

50%是指二值化后注意力权重的一半为0,表中没有特别说明,但使用12层BERT模型进行量化。

此外,作者还对训练中的信息熵进行了测量(见图4、,提出了一种通过注意机制有效恢复完全丢失的信息熵的方法。

△图4训练中的信息熵

同时,作者绘制了训练时loss下降曲线和准确性,比BiBERT基线收敛明显快,准确性更高。

(图5的训练时的损失和精度曲线。)

作者提出的BiBERT作为第一种BERT模型全二值化的方法,为后续BERT二值化的研究奠定了理论基础,分析了其性能下降的原因,提出了Bi证明和DMD的方法,有效地提高了模型的性能。

它超过了现有BERT模型的二值化方法,优于使用更多比特的量化方案,理论上可以减少56.3倍的FLOPs和节省31.2倍的模型存储。

希望这份工作能成为将来研究的基础。

立即打开基于飞桨的开源深度学习模型压缩工具PaddleSlim。

paddleslim:https://github.com/paddlepaddle/paddleslim

传输门会议论文:https://openreview.net/forumid=5xegrl_5faj

Reference[1] Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, and Kurt Keutzer. Q-BERT: hessian based ultra low precision quantization of BERT. In AAAI, 2020.[2] Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. Q8BERT: quantized 8bit BERT. In NeurIPS, 2019.[3] Ali Hadi Zadeh, Isak Edo, Omar Mohamed Awad, and Andreas Moshovos. GOBO: quantizing attention-based NLP models for low latency and energy efficient inference. In MICRO, 2020.[4] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015。

*本文经量子比特授权刊登,观点仅归作者所有

-结束了

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签