高通CVPR神的研究:将视频处理的计算量降低78%,告诉自己的卷积层;选择“像素”;在幻灯片的动画中纵向播放卡片-量子位
在图像领域,AI算法大牛们的手臂已经无法抑制。
目前,随着视频产业的发展,算法已成为计算机视觉研究的新潮流。
不管怎么说,在日常生活中,无论是视频通话,还是web讲义的实况转播,都使用了大量的动画处理算法。
但是,如果这些算法性能不高,视频就会变成卡顿,分辨率会下降,体验会变得极端糟糕。
(在视频通话中,想象画面成为力量点的场面,会生气……)
因此,减少影像算法的计算量是国内外AI视觉算法大牛们一直致力于研究的问题。
最近有两篇CVPR2021的论文,在视频行业也引起了关注。
教算法模型“省计算力”,视频处理算法的计算效率提高了好几倍,性能也没有降低。
告诉AI自己的计算力,计算量-78%
用卷积神经网络处理影像是一个庞大的计算量
这里所说的“计算量”不是指视频的大小,而是指对图像进行卷积处理的方式——将图像“扫干净”。
但是在实际的视频中,有很多没有太大变化的场景(有时10帧中只有一只手在动)
在这种情况下,再处理一个像素的话……感觉GPU在燃烧。
当然,有两种方法。
在第一篇文章中,我们提出了一个新的卷积层,称为skip-convolutions(跳跃卷积)这将减去前后两帧的图像,只折叠变化的部分。
是的,像人类的眼睛一样容易注意到“移动的部分”。
一转眼,计算量从10.2GMACS(1秒10 ^9次的定点乘法积累计算)变成了0.4GMACS和4%以下。
不仅是上述的姿态估计,这个卷积层适用于任何神经网络算法。光流、语义分割、分类任务等。
与经典视频AI算法HRnet相比,最新的语义分割任务将计算量减少了78%,延迟减少了65%,性能没有下降。
在第二篇论文中,AI模型采用了“自己控制计算量”的新方法。
本文提出了一种由多个级联分类器组成的网络“FrameExit”,它可以根据视频帧的复杂性来改变模型中使用的神经元数量。
如果视频前后的帧差较大,AI将在整个模型中进行计算。如果前后帧差较小,则仅通过模型的一部分进行计算。
也就是说,如果是不需要复杂计算的框架,用更小的模型处理就可以了。
与其他型号相比,性能最高可提高5倍。
同时,神经网络的检测精度(mAP)不但没有降低,反而在增加!
现在,第二篇论文被选为CVPR2021的Oral。
重要的是,这两篇论文背后的单位竟然是高通。这是一家与所有手机用户有密切关系的公司。
更高性能的智能手机视频应用程序好像在增加。
手机视频应用的性能翻了一番
这两种AI影像识别技术在高通中已经得到了研究。
即使是落地的方向,也不得不说我们平时在智能手机上使用视频应用程序时需要的东西。
它不仅可以优化视频处理算法,还可以将更多的AI视频模型运用到智能手机上。
首先是对视频处理算法的优化。
例如,在我们经常看到的在线视频会议和web讲义等视频通话场景中,如果视频处理算法的模型不好,实时通话的质量就会非常差。
而且,因为也有直接下帧的情况,所以比语音通话更难看。
但是,如果使用这样的影像识别技术,AI可以智能地处理影像的一部分像素,戏剧性地减少影像通话所需的图像计算量,顺利地通话。
另外,如果用智能手机对视频文件进行智能剪辑处理,可能会导致耗电量变大,文件读取变慢。
但如果你用这样的算法来处理视频剪辑应用程序,你不仅可以优化算法本身,还可以让剪辑更加平滑。
事实上,得益于这种影像识别算法,更多的AI模型可以应用到智能手机上。
xiaomi11是动画编辑功能之一,一部分画面停止时间,一部分保持播放状态,就像人对人施“时间停止”的魔法一样。
这样的动画算法的模型,到现在为止计算量非常多,本来论文用GPU实现。现在也可以用智能手机“停止时间”
不仅仅是一个视频,特定的帧也可以暂停,制作出有趣的视频。
另外,AI视觉论文中常见的图像强化算法,以前也是以摄影用为主流,不能适用于动画。
但是现在,由于影像的计算量减少,即使在视频会议这样的场合,也可以实时拍摄视频。
例如,OPPO Find X3Pro的夜景摄影,即使正常拍摄逆光和夜景的影像,AI的计算也能很好地看到脸。
就连我们一般的视频,得益于智能帧间视频感知算法、超分辨率算法等技术,也可以将视频感知算法应用于智能帧间的比较。
这是vivo X60Pro+的智能稳定视频
事实上,这些都是应用于智能手机的AI黑科技,其背景是snapdragon888的计算力和处理性能。
也就是说,高通从“几张纸”的论文中,将不少AI动画处理算法置换为实际的智能手机动画应用程序。
“看不见”AI黑科技,身边有很多
不仅是智能手机应用程序,在这些算法的基础上还要“提高”。
在智能保健、智能工厂、XR等“未来”场景逐渐成为现实的背景下,还是存在着无数的AI黑技术。
以一般的VR机器的例子来说,通过附加AI的算法,照相机也从内向外,精度更高的跟踪成为可能。
与5G组合配信影像,搭载搭载AI的VR机器,不仅可以对孩子进行科学教育,还可以从医生向患者进行详细的说明。
另外,现在即使去医院,患者信息和诊疗进展,最新的诊疗结果等,关于疾病的信息也集中在一个代码中。
如果用东大合并开发的“代码哥哥”扫描的话,医生可以快速获得所有的信息,进行诊断。
同时,根据iot医疗机器和AI的数据分析,健康监测也被简化,实现患者按地域实时能看结果的「连接」医院。
同时,如果活用AI+边缘计算+5G,能制作代替人的眼进行质量检验和缺陷判定的智能的数字生产线,能大幅度削减工厂的人工费。
不仅如此,工业搬运机器人也可以通过5G+AI,在云侧和边缘侧智能地分析相机收集到的视频流数据,进行远程操作。
但是用户不需要知道那么详细。
这是因为,像高通这样最先进的技术企业,一一清除了这些技术难点。
▲高通AI的应用布局
而且,通过将其作为产品提示,每个用户都可以毫无差别地享受最新技术的突破。
黑科技有多复杂
那不是很多用户应该考虑的事情。
2cvpr2021论文地址:[1]https://arxiv.org/abs/2104.11487 [2] https://arxiv.org/abs/2104.13400