谷歌AI发布“移动“三维物体数据集,标记边界框,相机姿态,稀疏点云,网友:快给我AR模型上-量子位
你看过三维物体的数据集还是三维物体的数据集
每个视频都是以目标为中心拍摄的,不仅有表示整体边界的框架,每个视频都有相机姿势和透视。
这是一个开源的三维对象数据集Objectron。它包括1.5万个短视频样本和来自5大洲、10个国家的400多万张注释图片。
在三维目标理解领域,我们缺乏像二维ImageNet这样的大型数据集,但我们认为Objectron数据集可以在一定程度上解决这个问题。
数据集发布后,1.6k网友按了“赞!”。
一位网友揶揄说,自己思考“谷歌”这个数据集的时候,就发了“谷歌”。
看到这样的数据集和模型,也有原成员表示很高兴能给AR带来进步的可能性。
此外,“谷歌”还通过Objectron数据集培训并发布了四种对象检测模型:鞋子、椅子、杯子和相机。
让我们看看这个数据集中包含了什么,以及谷歌提供的3D目标检测方案。
九种物体对AR很友好
此数据集包含自行车、书、瓶子、相机、串行盒子、椅子、杯子、笔记本电脑、鞋子等3D样本
当然,这个数据集不仅仅是以物体为中心拍摄的视频和图像。
图像部分的画风基本上是这样的。写得非常详细。
视频中有以目标为中心的各种角度的影像(从左到右,从下到上):
有多种类型的视频(一个目标或两个或多个目标):
我们希望通过公开这一数据集,我们能够进一步突破三维目标理解领域,使之成为类似无教师学习的研究应用。
如何使用谷歌“以身作则”
拿到数据集的瞬间,不知道那个能不能使用,总觉得不能着手。
没关系,这个数据集的训练效果,在谷歌中试过了。
看起来还不错:
另外,谷歌还一并给出了训练好的3D目标的检测模型。(转发在句末)
算法大致由两部分组成。第一个是Tensorflow的二维目标检测模型,用于“发现物体位置”。
第二部分进行图像裁剪,估计三维对象的边框(同时计算下一帧的二维裁剪,因此不需要执行每个帧)总体配置如下:。
在模型评估中,采用sutherland-hodgman多边形裁剪法计算两个立体边界框的交点,计算两个立方体的相交体积,最终计算出三维目标检测模型的IoU。
简而言之,两个立方体重叠的体积越大,三维对象检测模型的效果越好。
此模型是“谷歌”发布的介质图形的一部分。介质管道是一个开放源代码的跨平台框架,用于构建处理各种形式的传感数据的管道。
实时三维对象检测模型可在移动设备(移动电话)上实时检测对象。
实时目标检测很好
以及三维数据集的其他部分
除了在[谷歌]中发布的数据集以外,到目前为止,在视觉三维目标领域,有各种各样的数据集,各自都有自己的特征。
例如,斯坦福大学等提出的ScanNetV2是室内场景数据集,ScanNet是RGBD视频数据集,有21个目标类,1513个捕获场景数据,可以进行语义段和目标检测任务。
目前,在自动驾驶中很受欢迎的KITTI数据集是自动驾驶场景中计算机视觉算法评估数据集中最大的三维数据集,包括城市、田园、高速公路等真实图像数据。
另外,“Waymo”、“SemanticKITTI”、“H3D”等数据集也在各种场景中使用。(例如,SemanticKITTI是专门用于自动运行的3D语义划分)
无论是视频还是图像,这些数据集在一个样例中往往包含多个目标,与谷歌中的Objectron使用场景不同。
如果您感兴趣,可以从下面的门查看最新的三维目标检测数据集和相关模型。
objectron图像数据传输门:https://github.com/google-research-datasets/objectron/
瞄准4种物体的3d目标检测模型:https://google.github.io/mediapipe/solutions/objectron
引用:https://ai.googleblog.com/2020/11/announcing-objectron-dataset.htmlhttps://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html