二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

在过去的几年中,三维传感器(如激光雷达、深度感应相机)得到了迅猛的发展和普及。这也带来了一种新的需求,对三维数据(即三维场景获取到的数据)的分析与理解,列如分析下图这样一个三维空间的数据。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

这样的三维数据分析技术,可以为自动驾驶、机器人、虚拟现实等带有三维传感器的系统提供强而有力的支持。

在计算机视觉领域,学者们和从业人员已经开始了相应的研究,包括移动三维物体识别、透明物体识别等等。不过,针对三维数据分析的工具,却仍旧超级的缺乏。

为了支持对三维空间数据的分析与理解,降低这一领域研究的难度,谷歌AI研究组发布了名为TensorFlow 3D (缩写为TF 3D)的库。这是一个高度模块化并且高效的机器学习库,专门为三维数据分析而设计。

TF 3D可以提供一系列的操作,包括基础的损失函数、数据处理工具、神经网络模型等等,用于支持对三维数据的分析。

与此同时,TF 3D还包括了三维数据训练和测试的模块,支持但不限于三维物体识别(3D object detection)、三维语义分割(3D semantic segmentation)、三维实例分割(instance segmentation)。同时,它还可以支持分布式的机器学习。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

二维示例:(a)分类,(b)物体识别,(c)语义分割,(d)实例分割。https://arxiv.org/abs/1704.06857

TF 3D 提供了多个用于训练和测试的三维数据集,包括Waymo Open, ScanNet, and Rio。它也可以辅助用户,将其他的数据集转换为TF 3D所支持的格式。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

左:三维物体识别,右:三维实例分割。

三维稀疏卷积神经网络(3D Sparse Convolutional Network)

这是针对三维数据处理,目前最有效的方法。

具体来讲,三维传感器获取的三维数据,往往包括一个三维空间的数据。在这个空间里,有一些物品(如汽车、行人),也有许多空余的空间。这些空余空间的数据,往往是我们不感兴趣的。

也就是说,三维数据往往是自身稀疏的(sparse),即有许多数据是无意义的。针对这样的稀疏三维数据,使用传统的卷积神经网络,往往会带来很大的计算消耗和内存需求。

因此,TF 3D使用了针对三维数据的稀疏卷积神经网络,以及相应的其他技术支持,来提高计算和内存使用效率。同时,TF 3D为用户提供了多种计算框架,来提升计算速度。

TF 3D使用三维稀疏U-Net架构,来提取每个单位体积的特征。这一架构可以同时获取三维图像高层次(更概括)和低层次(更细致)的特征,并通过这些特征共同推测或分类。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

U-Net架构

三维语义分割

三维语义分割,输出每个体积元素的语义评分(semantic scores),这个语义评分会被用来推测每个体积元素的语义标记,即每个体积元素对应的物品是什么。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

三维语义分割:只区分物品种类,但不区别这类物品的不同个体。

三维实例分割

在三维语义分割的基础上,三维实例分割,需要将属于同一物品的像素组合起来,也就是说,需要区分不同像素是否属于同一个物品。

TF 3D中的三维实例分割算法,是基于先前tensorflow中的二维图像分割的方法。

主要想法是,针对每个体积元素,推测一个实例嵌入向量(instance embedding vector),以及一个语义评分。这个实例嵌入向量,可以映射体积元素到嵌入空间(space),在这个嵌入空间中,指向一样物品的体积元素相邻,而指向不同物品的体积元素相距很远。

在推断阶段,使用贪婪算法,来推测每个体积元素对应的实例,并根据体积元素之间的距离,来将它们聚合成实例。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

三维实例分割:在区分物品种类的基础上,进一步区分同类物品的不同个体。

三维物体识别

三维物体识别模型,推测每个体积元素的中心、大小、方向以及物体语义评分(object semantic scores)。在推断阶段,成千上万的对体积元素的推测,会被归纳为若干个以框架(如长方体)为单位的推测。在训练阶段,损失函数被定义为,在每个框架中,所有体积元素的推测结果和实际结果的区别。

二维图像识别已经过时?谷歌推出三维机器学习库,识别不止于平面

三维物体识别:识别物体的种类、大小、方向、中心,用框架标记。

参考文献:

  • A. Fathi, and R. Huang, “3D Scene Understanding with TensorFlow 3D”, https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html, accessed on Feb. 14, 2021.
  • A. Garcia-Garcia, S. Orts-Escolano, S. Oprea, V. Villena-Martinez, J. Garcia-Rodriguez, “A Review on Deep Learning Techniques Applied to Semantic Segmentation”, https://arxiv.org/abs/1704.06857.

愿生活充满干货。一个认真科普的90后女博士,每周分享通信、计算机、网络及经济学最新最有趣的干货。喜爱的话,记得点赞、收藏和关注哟。欢迎留言及评论。

© 版权声明

相关文章

1 条评论

  • 头像
    听你的喵 投稿者

    收藏了,感谢分享

    无记录
    回复