欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

声音识别物,这是AI视觉应该做的事ECCV2022-量子比特,

2023-04-18 09:30:57 栏目 : 科技 围观 : 0次

听到“咕嘟咕嘟”的警笛声,你可以迅速判断是从路过的救护车发出的声音。

根据AI的语音信号可以得到完整的、细化的发声器屏蔽图吗?

合肥工业大学、商汤、澳国立、北航、英伟达、港大以及上海人工智能实验室的研究人员提出了新的视听分割任务(Audio-Visual Segmentation,AVS)

视听分割是用于分割发声物并生成发声物的微细化分割图。

相应地,研究人员提出了第一个具有像素级显示的视听数据集AVSBench。

新任务、新数据集、算法做的又是新坑。

根据最新的发表结果,该论文被ECCV2022所接受。

准确锁定发声物的听觉和视觉是人类感知世界最重要的两个传感器。在生活中,语音信号和视觉信号常常是互补的。

视听特征学习(audiovisual learning)产生了视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVP)、音源定位(SSL)等许多有趣的任务。

其中,既有判定音像是否记述了相同的事件/物体的分类任务,也有对发热体进行热力学可视化而大致定位的任务。

但是无论如何,对精致化的视听场景的理解都有危险的意义。

△AVS任务与SSL任务的比较

视听分割提出“迎难而上”,准确分割视频帧中发声物体的全貌--

即,将音频作为指示信号,决定分割哪个物体,得到其完全的像素级掩模映射。

AVSBench数据集如何研究这项新任务?

考虑到当前未被视听分割的开源数据集,研究人员提出了AVSBench数据集,并用它研究了新任务的两种设置:

1、单音源(Single-Source)的视听分割2、多音源(Multi-Sources)的视听分割

数据集中每个视频的时间为5秒。

单声源子集包含23种4932个视频,包括婴儿、猫狗、吉他、赛车、除草机等与日常生活密切相关的发声物。

△AVSBench单一源子集的数据分布

多声源子集包含424个视频。

结合困难时,单声源子集在半监督条件下进行,多声源子集在全监督条件下进行。

研究人员等间隔地对AVSBench内的各视频采样5帧,对发声体进行人工像素级显示。

对于单声源子集,仅标记采样的第一个视频帧。对于多声源子集,5帧图像都已标记。这就是所谓的半导演和全导演。

△单声源子集和多声源子集的不同人工显示

此像素级标记可避免包含大量非发声物和背景,从而提高模型验证的准确性。

简单的baseline方法有一个数据集,研究人员又抛砖引玉,文中给出了一个简单的baseline。

吸取传统语义分割模型的成功经验,研究人员提出了一种端到端的视听分割模型。

该模型根据编码器解码器的网络架构,输入视频帧,最终直接输出分割掩码。

此外,网络优化的目标有两个。

第一种是计算预测图和实际标签的损失。

针对多声源情况,研究人员提出了掩蔽视听匹配损失函数来约束发声物和语音特征在特征空间中保持相似分布。

一些实验结果只是不练习假套路,研究人员进行了广泛的实验。

首先比较了视听分割和相关任务六种方法,研究人员在音源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上各选择了两种SOTA方法。

实验结果表明,视听分割在多个指标下取得了最佳结果。

△与相关任务方法的视听分割的比较结果

其次,研究人员进行了一系列消融实验,验证了利用TPAVI模块,在单声源和多声源的设置下采用两种backbone的视听分割模型可以得到更大的提高。

△引入音频的TPAVI模块能够更好地处理物体的形状细节(左),有助于分割正确的发声物(右)

对于新任务的视听匹配损失函数,实验还验证了其有效性。

One More Thing文中提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,还可以用于声源定位模型的验证。

研究人员在项目主页上表示,他们正在准备比AVSBench大10倍的AVSBench-v2。

部分视频的分割demo也上传到了主页上。有兴趣的话可以去看哦~

论文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

项目主页:

https://opennlplab.github.io/AVSBench/

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签