高通CVPR神的研究：将视频处理的计算量降低78%，告诉自己的卷积层；选择“像素”；在幻灯片的动画中纵向播放卡片-量子位

2023-04-15 09:54:56 栏目 : 科技围观 : 0次

在图像领域，AI算法大牛们的手臂已经无法抑制。

目前，随着视频产业的发展，算法已成为计算机视觉研究的新潮流。

不管怎么说，在日常生活中，无论是视频通话，还是web讲义的实况转播，都使用了大量的动画处理算法。

但是，如果这些算法性能不高，视频就会变成卡顿，分辨率会下降，体验会变得极端糟糕。

（在视频通话中，想象画面成为力量点的场面，会生气……）

因此，减少影像算法的计算量是国内外AI视觉算法大牛们一直致力于研究的问题。

最近有两篇CVPR2021的论文，在视频行业也引起了关注。

教算法模型“省计算力”，视频处理算法的计算效率提高了好几倍，性能也没有降低。

告诉AI自己的计算力，计算量-78%

用卷积神经网络处理影像是一个庞大的计算量

这里所说的“计算量”不是指视频的大小，而是指对图像进行卷积处理的方式——将图像“扫干净”。

但是在实际的视频中，有很多没有太大变化的场景（有时10帧中只有一只手在动）

在这种情况下，再处理一个像素的话……感觉GPU在燃烧。

那么，能不能教AI不要浪费计算力，高效率地“偷懒”呢

当然，有两种方法。

在第一篇文章中，我们提出了一个新的卷积层，称为skip-convolutions（跳跃卷积）这将减去前后两帧的图像，只折叠变化的部分。

是的，像人类的眼睛一样容易注意到“移动的部分”。

一转眼，计算量从10.2GMACS（1秒10 ^9次的定点乘法积累计算）变成了0.4GMACS和4%以下。

不仅是上述的姿态估计，这个卷积层适用于任何神经网络算法。光流、语义分割、分类任务等。

与经典视频AI算法HRnet相比，最新的语义分割任务将计算量减少了78%，延迟减少了65%，性能没有下降。

在第二篇论文中，AI模型采用了“自己控制计算量”的新方法。

本文提出了一种由多个级联分类器组成的网络“FrameExit”，它可以根据视频帧的复杂性来改变模型中使用的神经元数量。

如果视频前后的帧差较大，AI将在整个模型中进行计算。如果前后帧差较小，则仅通过模型的一部分进行计算。

也就是说，如果是不需要复杂计算的框架，用更小的模型处理就可以了。

与其他型号相比，性能最高可提高5倍。

同时，神经网络的检测精度（mAP）不但没有降低，反而在增加！

现在，第二篇论文被选为CVPR2021的Oral。

重要的是，这两篇论文背后的单位竟然是高通。这是一家与所有手机用户有密切关系的公司。

更高性能的智能手机视频应用程序好像在增加。

手机视频应用的性能翻了一番

这两种AI影像识别技术在高通中已经得到了研究。

即使是落地的方向，也不得不说我们平时在智能手机上使用视频应用程序时需要的东西。

它不仅可以优化视频处理算法，还可以将更多的AI视频模型运用到智能手机上。

首先是对视频处理算法的优化。

例如，在我们经常看到的在线视频会议和web讲义等视频通话场景中，如果视频处理算法的模型不好，实时通话的质量就会非常差。

而且，因为也有直接下帧的情况，所以比语音通话更难看。

但是，如果使用这样的影像识别技术，AI可以智能地处理影像的一部分像素，戏剧性地减少影像通话所需的图像计算量，顺利地通话。

另外，如果用智能手机对视频文件进行智能剪辑处理，可能会导致耗电量变大，文件读取变慢。

但如果你用这样的算法来处理视频剪辑应用程序，你不仅可以优化算法本身，还可以让剪辑更加平滑。

事实上，得益于这种影像识别算法，更多的AI模型可以应用到智能手机上。

xiaomi11是动画编辑功能之一，一部分画面停止时间，一部分保持播放状态，就像人对人施“时间停止”的魔法一样。

这样的动画算法的模型，到现在为止计算量非常多，本来论文用GPU实现。现在也可以用智能手机“停止时间”

不仅仅是一个视频，特定的帧也可以暂停，制作出有趣的视频。

另外，AI视觉论文中常见的图像强化算法，以前也是以摄影用为主流，不能适用于动画。

但是现在，由于影像的计算量减少，即使在视频会议这样的场合，也可以实时拍摄视频。

例如，OPPO Find X3Pro的夜景摄影，即使正常拍摄逆光和夜景的影像，AI的计算也能很好地看到脸。

就连我们一般的视频，得益于智能帧间视频感知算法、超分辨率算法等技术，也可以将视频感知算法应用于智能帧间的比较。

这是vivo X60Pro+的智能稳定视频

事实上，这些都是应用于智能手机的AI黑科技，其背景是snapdragon888的计算力和处理性能。

也就是说，高通从“几张纸”的论文中，将不少AI动画处理算法置换为实际的智能手机动画应用程序。

“看不见”AI黑科技，身边有很多

不仅是智能手机应用程序，在这些算法的基础上还要“提高”。

在智能保健、智能工厂、XR等“未来”场景逐渐成为现实的背景下，还是存在着无数的AI黑技术。

以一般的VR机器的例子来说，通过附加AI的算法，照相机也从内向外，精度更高的跟踪成为可能。

与5G组合配信影像，搭载搭载AI的VR机器，不仅可以对孩子进行科学教育，还可以从医生向患者进行详细的说明。

另外，现在即使去医院，患者信息和诊疗进展，最新的诊疗结果等，关于疾病的信息也集中在一个代码中。

如果用东大合并开发的“代码哥哥”扫描的话，医生可以快速获得所有的信息，进行诊断。

同时，根据iot医疗机器和AI的数据分析，健康监测也被简化，实现患者按地域实时能看结果的「连接」医院。

同时，如果活用AI+边缘计算+5G，能制作代替人的眼进行质量检验和缺陷判定的智能的数字生产线，能大幅度削减工厂的人工费。

不仅如此，工业搬运机器人也可以通过5G+AI，在云侧和边缘侧智能地分析相机收集到的视频流数据，进行远程操作。

但是用户不需要知道那么详细。

这是因为，像高通这样最先进的技术企业，一一清除了这些技术难点。

▲高通AI的应用布局

而且，通过将其作为产品提示，每个用户都可以毫无差别地享受最新技术的突破。

黑科技有多复杂

那不是很多用户应该考虑的事情。

2cvpr2021论文地址：[1]https：//arxiv.org/abs/2104.11487 [2] https：//arxiv.org/abs/2104.13400

展开剩余内容

分享到：

标签算法计算智能视频

上一篇：这家自动驾驶公司融资2.7亿美元，京东美团一齐出手-量子比特下一篇：《绿野仙踪》将整本书保存在纳米级的DNA中，高效准确地读取无压力的-量子比特

高通CVPR神的研究：将视频处理的计算量降低78%，告诉自己的卷积层；选择“像素”；在幻灯片的动画中纵向播放卡片-量子位

猜你喜欢

618笔记本推荐指南 3款4000元轻薄本不能错过

2023年广东艺术类大学排名一览表

不再 Pixel、三星独占：Android 11 为所有手机带来无线 Android Auto 功能

一公司推出奢华版苹果iPhone 11 Pro，售价约人民币2.6万元起

推荐文章

网站分类

热门浏览

热门标签