关于机器学习:xai还是OpenAI埃隆马斯克的AI帝国2

97次阅读

共计 1452 个字符，预计需要花费 4 分钟才能阅读完成。

上期内容咱们提到了埃隆马斯克的特斯拉是主动驾驶畛域的领导者，大家可能近些年也都有从各类渠道听到过 Tesla 主动驾驶无关的新闻。不同于像包含 Google 子公司 Waymo 在内的大多数应用激光雷达来实现主动驾驶的公司，特斯拉采纳的是只须要视频输出就能了解汽车周围环境，并实现主动驾驶的办法。在 2021 年的计算机视觉和模式识别会议 CVPR 2021 的主动驾驶研讨会，特斯拉首席人工智能科学家 Andrej Karpathy 具体介绍了特斯拉的这套基于深度学习的主动驾驶零碎。

神经网络算法，如 deep neural networks 等，是主动驾驶畛域的次要技术，然而深度学习在检测图像中的物体时也会出错。拥护纯计算机视觉办法的次要论点是，神经网络是否能够在没有激光雷达深度图帮忙的状况下进行测距和深度预计存在不确定性。为了解决现有深度学习框架辨认图像不够精确的问题，特斯拉找到的第一剂灵丹妙药是他们蕴含数百万视频的、而且通过精心标注的宏大数据集。

为了更高效的解决和标注数据，特斯拉开发了一套具备奇妙分工的半自动数据标记零碎，其中神经网络执行重复性工作，该技术波及神经网络、雷达数据和人工审查的组合，而人类负责高级认知问题和极其状况。特斯拉在寰球销售了数百万辆装备摄像头的汽车，在收集训练汽车计算机视觉深度学习模型所需的数据方面处于统治性位置。特斯拉主动驾驶团队积攒了 1.5 PB 的数据，其中包含一百万个 10 秒视频和 60 亿个带有边界框、深度和速度正文的对象。

上面这段视频展现了在远距离、灰尘、或者是雨雪天气中物体都能被统一的检测到的成果，就是图中的那个粉色方块。

特斯拉构建的基于 RNN 的深度学习模型是一套非常复杂的多层神经网络系统，它通过大略这么几个步骤来实现了利用装置在汽车四周的八个摄像头的主动驾驶。首先是须要可能解决摄像头采集到的图片，比方从中辨认出汽车、行人、交通灯等。而后，来自多个摄像头的图像须要可能被拼接在一起，造成这样的向量空间 Vector Space，就是事实世界的一个 3D 投影。这段录像就展现了在缝合到一起的影像中检测机动车道的成果，外面的蓝线就是不同摄像头采集到的图片的分界线。第三，有了这些解决好的数据之后，就要对它们进行特色解决，这里除了视频之外正当还要引入汽车的速度、加速度、所处的空间地位、工夫等因素。最终，这些解决好的特色会被输出基于 RNN 的深度学习神经网络里，RNN 会及时跟踪任何工夫点产生的事件，并有能力选择性地读取和解决这些数据，当汽车在行驶时，它只会高效的更新汽车左近和汽车能见范畴内的局部。这里对于算法的细节省略了一万句，有趣味的小伙伴能够在公众号后盾留言获取具体的援用材料。

图 5. 相机连贯到 3D 向量空间（来自 Tesla AI Day）

图 6. 缝合到 3D 空间中的车道检测（来自 Tesla AI Day）

图 11. 空间 RNN（来自 Tesla AI Day）

简略总结回顾一下就是，首先进行单个视频的采集和解决，而后缝合多个摄像头采集的图像，之后进行特色解决，最初通过 RNN 实现最终的解决。尽管特斯拉在这个畛域获得了不小的冲破，但以后业界失去的深度学习模型仍然有它的局限，比如说它很难进行逻辑推理，也就是触类旁通，解决训练数据集中齐全没有呈现过的新状况的能力有余。

这是一段由人工智能加工整顿的内容，怕学 AI 太难，那咱们就先和 AI 玩起来。聊完特斯拉，下期内容咱们再来聊聊 SpaceX。再见。