二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

在过去的几年中，三维传感器（如激光雷达、深度感应相机）得到了迅猛的发展和普及。这也带来了一种新的需求，对三维数据（即三维场景获取到的数据）的分析与理解，列如分析下图这样一个三维空间的数据。

这样的三维数据分析技术，可以为自动驾驶、机器人、虚拟现实等带有三维传感器的系统提供强而有力的支持。

在计算机视觉领域，学者们和从业人员已经开始了相应的研究，包括移动三维物体识别、透明物体识别等等。不过，针对三维数据分析的工具，却仍旧超级的缺乏。

为了支持对三维空间数据的分析与理解，降低这一领域研究的难度，谷歌AI研究组发布了名为TensorFlow 3D (缩写为TF 3D)的库。这是一个高度模块化并且高效的机器学习库，专门为三维数据分析而设计。

TF 3D可以提供一系列的操作，包括基础的损失函数、数据处理工具、神经网络模型等等，用于支持对三维数据的分析。

与此同时，TF 3D还包括了三维数据训练和测试的模块，支持但不限于三维物体识别（3D object detection）、三维语义分割（3D semantic segmentation）、三维实例分割（instance segmentation）。同时，它还可以支持分布式的机器学习。

二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

二维示例：（a）分类，（b）物体识别，（c）语义分割，（d）实例分割。https://arxiv.org/abs/1704.06857

TF 3D 提供了多个用于训练和测试的三维数据集，包括Waymo Open, ScanNet, and Rio。它也可以辅助用户，将其他的数据集转换为TF 3D所支持的格式。

二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

左：三维物体识别，右：三维实例分割。

三维稀疏卷积神经网络（3D Sparse Convolutional Network）

这是针对三维数据处理，目前最有效的方法。

具体来讲，三维传感器获取的三维数据，往往包括一个三维空间的数据。在这个空间里，有一些物品（如汽车、行人），也有许多空余的空间。这些空余空间的数据，往往是我们不感兴趣的。

也就是说，三维数据往往是自身稀疏的（sparse），即有许多数据是无意义的。针对这样的稀疏三维数据，使用传统的卷积神经网络，往往会带来很大的计算消耗和内存需求。

因此，TF 3D使用了针对三维数据的稀疏卷积神经网络，以及相应的其他技术支持，来提高计算和内存使用效率。同时，TF 3D为用户提供了多种计算框架，来提升计算速度。

TF 3D使用三维稀疏U-Net架构，来提取每个单位体积的特征。这一架构可以同时获取三维图像高层次（更概括）和低层次（更细致）的特征，并通过这些特征共同推测或分类。

二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

U-Net架构

三维语义分割，输出每个体积元素的语义评分（semantic scores），这个语义评分会被用来推测每个体积元素的语义标记，即每个体积元素对应的物品是什么。

二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

三维语义分割：只区分物品种类，但不区别这类物品的不同个体。

在三维语义分割的基础上，三维实例分割，需要将属于同一物品的像素组合起来，也就是说，需要区分不同像素是否属于同一个物品。

TF 3D中的三维实例分割算法，是基于先前tensorflow中的二维图像分割的方法。

主要想法是，针对每个体积元素，推测一个实例嵌入向量（instance embedding vector），以及一个语义评分。这个实例嵌入向量，可以映射体积元素到嵌入空间（space），在这个嵌入空间中，指向一样物品的体积元素相邻，而指向不同物品的体积元素相距很远。

在推断阶段，使用贪婪算法，来推测每个体积元素对应的实例，并根据体积元素之间的距离，来将它们聚合成实例。

二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

三维实例分割：在区分物品种类的基础上，进一步区分同类物品的不同个体。

三维物体识别模型，推测每个体积元素的中心、大小、方向以及物体语义评分（object semantic scores）。在推断阶段，成千上万的对体积元素的推测，会被归纳为若干个以框架（如长方体）为单位的推测。在训练阶段，损失函数被定义为，在每个框架中，所有体积元素的推测结果和实际结果的区别。

二维图像识别已经过时？谷歌推出三维机器学习库，识别不止于平面

三维物体识别：识别物体的种类、大小、方向、中心，用框架标记。

参考文献：

A. Fathi, and R. Huang, “3D Scene Understanding with TensorFlow 3D”, https://ai.googleblog.com/2021/02/3d-scene-understanding-with-tensorflow.html, accessed on Feb. 14, 2021.
A. Garcia-Garcia, S. Orts-Escolano, S. Oprea, V. Villena-Martinez, J. Garcia-Rodriguez, “A Review on Deep Learning Techniques Applied to Semantic Segmentation”, https://arxiv.org/abs/1704.06857.

愿生活充满干货。一个认真科普的90后女博士，每周分享通信、计算机、网络及经济学最新最有趣的干货。喜爱的话，记得点赞、收藏和关注哟。欢迎留言及评论。