2017/05/27 16:32

GMIS 2017 大会余凯演讲：深度学习引领驾驶革命

全球机器智能峰会（GMIS 2017），是全球人工智能产业信息服务平台机器之心举办的首届大会，邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个 Session、32 场演讲、4 场圆桌论坛、1 场人机大战，兼顾学界与产业、科技巨头与创业公司，以专业化、全球化的视角为人工智能从业者和爱好者奉上一场机器智能盛宴。

余凯3.jpg

5 月 27 日，机器之心主办的为期两天的全球机器智能峰会（GMIS 2017）在北京 898 创新空间顺利开幕。中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任王飞跃为本次大会做了开幕式致辞，他表示：「我个人的看法是再过几年，我们 90% 的工作是人工智能提供的，就像我们今天大部分工作是机器提供的一样。我们知道人工智能会给我们提供一个更美好的未来。」大会第一天重要嘉宾「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官邓力、腾讯 AI Lab 副主任俞栋、英特尔 AIPG 数据科学部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能专家参与峰会，并在主题演讲、圆桌论坛等互动形式下，从科学家、企业家、技术专家的视角，解读人工智能的未来发展。

下午，地平线机器人创始人余凯发表了主题为《深度学习引领驾驶革命》的演讲，他探讨分享了如何在自动驾驶中构建深度学习。以下是该演讲的主要内容：

每个人都在谈深度学习，深度学习改变了语音识别、图像识别、自然语言、搜索，当然还有下围棋。那么，深度学习会引起下一个革命，并且对人类生活影响最深远的是什么？我个人的答案是自动驾驶。

2025 年，每年将有五千万辆新车销售，这是很大的市场。去年，美国销售了 1700 万辆汽车，中国销售了 2800 万辆，成为世界第一大汽车市场。但中国面临着很多挑战，一是堵车，二是中国的司机欠缺规则意识。三是中国交通事故造成的死亡率排名世界第一。

我们能否用技术使交通出行更加便捷，人们的生活更加安全？深度学习是否可以发挥作用？

过去，我在图像、语音，包括自然语言、互联网搜索，做了很多项目，深度学习对整个 AI 的改变，我深有体会。

我们看到深度学习在很多领域，有巨大的进展。举两个例子，其一，我过去曾负责一个搜索项目，当时我所在的百度希望用深度学习提升搜索的相关性，但是用深度学习训练，需要大量数据。如果用人工标注这样的数据，花费时间大，各方面的成本都很高。我们想到，或许我们可以使用互联网数据。比如，我们观测到用户点击了这个网页，却没有点击另外一个网页，这说明用户隐含做了一个投票，投票不是跟点击的网页相关，而是点击的网页与没有点击的网页更相关。这样一个三元组，不需要人工标注，收集起来很容易，几乎是无限制的训练样本，可以训练大规模的神经网络。实际上，我们正是这样做的，用一千个样本训练有一亿个参数的模型，提升搜索引擎排序相关性。Google 做的一个项目，也有相似的想法和模型。

另外一个例子，AlphaGo2.0 给我们带来一个启示，那就是，你不仅可以从过去人类棋手的历史数据中学习，还可以产生虚拟数据去学习，这种方法也不需要人工标注的数据。

这两个例子表明，我们可能要抛弃过去训练系统的模式，构建一个学习系统，使系统自己学习，随着不断地尝试，它能不断演进。

从自动驾驶的角度来讲，从司机、使用者的自然行为去学习，或者构建一个仿真系统，在封闭环境中，让汽车充分暴露控制算法里各种边界的问题，然后去自我提升。实际上，这两种方法都有非常显著的优越性，因为一辆车每天搜集的数据，规模大到你无法想象，如果用人工去标注，是不可能实现的。

但是，构建深度学习系统，是系统性的工程，软件算法、系统软件，计算架构、处理器，云端大数据的训练，仿真系统，都需要重新构建。

首先，在软件算法方面，我们关注三方面。

一，Transparency，可解释性。在驾驶领域，黑匣子是不可接受的，如果有什么异常的行为发生，一定要知道原因，因而它必须是可以解释的。

二，端到端的学习，让这个系统能自我演进，而不是被人工标注训练。

三，让软件跟硬件适配，优化计算性能，使其低功耗。未来大量的车将会使用电池，如果功耗很高，发热将是问题。

90 年代，在机器学习领域，有一个比深度学习更加主流的框架——Bayes Networks，在不确定条件下，使智能系统去推理、学习。如果我们把深度神经网络与 Bayes Networks 结合，就有可能构建一个子模块由深度神经网络组成的可解释的大系统。

这是我们公司构建的雨果自动驾驶的软件系统，实际上，它是一个巨大的网络，由转接神经网络及其他形式的神经网络构建。这既可以使每个子模块用传统方法来学习，也可以使整个系统进行端到端学习。而这个系统每个模块的接口都清晰可定义，有清晰的语义，因此，可以添加政府的规章制度以及新的法律法规，形成一个 Learning Cars，使它从真实的数据中学习。除此之外，它能使软件系统充分调用硬件资源，能解决 GPU 功耗太高、延迟较多的问题。

另外，整个驾驶到感知、决策，中间所有的步骤都有不同的计算模式，因而需要构造不同的硬件去优化这种计算。因此我们公司从成立开始，就决心做自己的硬件，使硬件适应算法专家构想的新算法。

举个例子，某个 GPU 的训练，计算力是最强大的，但它计算的效率，每瓦的功耗所完成的计算，却是不高的。我们构造的处理器架构，计算效率逼近物理极限。

对我们的处理器，我们构建了超过上百类的实时识别，从整个场景中抽取对自动驾驶来说非常重要的方面，比如我们不关心这辆公共汽车的窗户数量，但我们关心它在哪个位置，朝向哪个方向，因为这关乎它下个 5 秒向哪个方向行驶。而这是目前的 GPU 做不到的。

不过，我们当前的这代处理器架构主要是为感知设计的，未来处理器的架构，更多地要为决策设计，这将比今天 AlphaGo 所面对的决策问题更加复杂，因为自动驾驶是一个庞大的系统。

另外，一辆自动驾驶的汽车，每天在路上收集的数据就有 6Million。一千辆自动驾驶汽车收集的数据，比百度图像搜索引擎所见所得的总和还要多。但是，不只是要在现实世界驾驶，还要通过数百亿仿真系统在虚拟场景驾驶，这对云端计算的要求非常高，我们也面临这样的挑战。

最后，我总结一下今天的核心内容：

一，未来的自动驾驶一定会像其他产业，构建一辆自主学习的汽车，而不是被人工标注数据训练的汽车。二，我们需要努力设计神经网络的结构，使它透明，可理解，可以被控制。三，软件重要，硬件同样重要，我们要联合软件和硬件，最大化整个计算的效率、安全性和系统的可靠性。

产业深度学习创业公司人工智能应用自动驾驶GMIS 2017产业