2018/05/09 08:25

编辑部撰文

少了AI First那类口号的谷歌I/O大会，似乎也少了行业风向标式的新意

「人们对有用信息的获取需求，与 20 年前谷歌成立时一样紧迫。」谷歌 CEO 桑德尔·皮查伊说，「但最重要的改变在于，我们组织信息和解决世界的复杂现实问题的能力，而这要归功于人工智能技术。」

在去年大会主题「Mobile first to AI first」之下，AI 是 I/O 的绝对主角，现场大约要听到上百次 AI 。今年，AI 不再是一个单独强调的方向，伴随 AI 技术深度渗透到谷歌旗下所有产品并逐步布局到云端向外输出，谷歌要让 AI 影响每个人。

「我们正处于计算的一个重要转折点，推动技术向前是令人兴奋的。很明显，技术是可以是一种积极的力量，可以提高全世界数十亿人的生活质量。」桑德尔·皮查伊说。

不过，愿景之下，超过 7000 名开发者在现场所能听到可称为行业「风向标」的亮点却不算太多，反而越发感觉到巨头们在 AI 商业化上从产品到路径上的趋同。

显然，谷歌相当看好 AI 在医疗领域的应用

拿汉堡 emoji 调侃之后，桑德尔·皮查伊用医疗应用作为开场重点，某种程度上也呼应了他所提及推进 AI 技术最终要改变更多人的生活质量。

两年前，谷歌开发了一种深度学习算法，可以通过眼部医学影像检测到糖尿病引发视网膜病变的症状。今年二月，人工智能团队又成功利用机器学习来预测病人心脏病发作或中风的风险。

「而且准确度高得惊人。」桑德尔·皮查伊说。

他还介绍了一项最新研究，谷歌用深度学习模型分析识别健康档案的信息进行大量与病人相关的预测。技术上值得一提的是，谷歌能够使用原始数据，不需要人工提取、清洁、转换病历中的相关变量。

从实际应用来看，这相当于可以帮助医院进行更精确的病人管理，比如病人重新入院和住院时间等。

谷歌还把机器学习应用在莫尔斯密码设备上，残疾人士可以用算法键盘 Gboard 输入摩尔斯码重新获得语言交流的能力。

谷歌发了一款带屏的智能硬件……

两年前的谷歌I/O大会上宣布 Google Assistant 的愿景，今年它已经被部署在超过 5 亿台设备上，覆盖 5000 种不同设备，汽车品牌就有 40 多个。

而下一阶段的目标，则是进一步优化助手式服务，让它能在视觉能力辅助下用更自然的对话方式帮助用户完成更多事情。

桑德尔·皮查伊在 Keynote 中展示了语言交互的重要性，并正式介绍了一种进行自然语言对话的新技术 Google Duplex。这种技术旨在完成预约等特定任务，并使系统尽可能自然流畅地实现对话，使用户能像与人对话那样便捷。

比如，你不需要再重复说「Hey,Google」，它就能理解每一个后续需求；当你在和别人交谈时，它也会理解你的意思并作出相应的反应。Google Assistant 新增的6 种语音，背后也有 DeepMind 的身影。

2016 年 9 月，DeepMind 公布了其在语音合成领域的最新成果 WaveNet，这是一种原始音频波形深度生成模型，能够模仿人类的声音，生成的原始音频质量优于目前常用的语音合成方法。

不过，当时这个模型还只处于雏形阶段，对于消费级产品而言，模型的计算消耗量太大。经过 12 个月的努力，DeepMind 大大提升了模型运行的速度和质量并推出 WaveNet 的更新版本，可以在所有平台上生成美式英语和日语的 Google Assistant 语音。

为了让对话更自然，Google Assistant 还多了「multiple actions」的本事，意思即可以在同一句说话内容之内，可以包括多个要向 Google Assistant 下达的指令，像是「告诉我纽约市和旧金山的天气」或「关灯和打开微波炉」。

如何自然持续性对话，正是当下语音助手研究的难点和热点。

前不久，亚马逊推出了三个针对 Alexa 的改进方案（上下文转携、记忆提醒和搜索执行），并表示要在 5 月底之前实现这些功能。其中一个非常重要的功能就叫做「context carryover」（上下文转携）：当语音请求从一个转向另外一个时，Alexa 可以「回忆」起之前的信息。也就是说，当用户连续问几个问题时，不需要在第二次发问时重复同一个信息点。

如今，亚马逊 Alexa 的 Skills 数量也已经超过 2.7 万项。而 Google Assistants 支持的 Actions 数量已经超过 100 万。

今天的大会上，Google Assistant 越发像一位真助理了，可以预约做头发、预定餐厅等任务。而在此之前，Google Assistant已经可以用语音来向好友收付款，还会订电影票。

在语言方面，Google Assistant 将会「学会」印度语、泰语、印尼语、丹麦语、挪威语、瑞典语及荷兰语等语言，并支持这些语言背景下的 Actions 开发工作；到今年年底，Google Assistant 支持的语言更是将会攀升至 30 多种。

最后，平常和语音助手对话一般只用 Hey Google 发命令，但这样会让小孩学不到有礼貌的语音习惯，怎么办呢？谷歌这次特别推出新功能，让语音助手理解对话中的敬语。

在 Google Assistant 的生态搭建上，基于家庭场景下的游戏、活动等应用方向，谷歌也开拓了很多内容合作伙伴，比如迪士尼。仅在过去两个月，家庭用户就听了超过 13 万小时的儿童故事。

而硬件上，当一个带屏幕的智能显示器出场，瞬间又「出戏」想起了亚马逊的 Echo Show 和百度的小度在家。当然，谷歌并没有称它为智能音箱。

不过，在 Google 的设想里，智能显示器的使用场景也是在家里，用户主要通过语音来实现指令，比如找菜谱、控制智能家居设备（没错，我们也看到了 Nest ）、在 YouTube 上看直播、和家人进行远程视频通话等，当然其中也集成了所有谷歌在其他终端提供的基本服务。

据说，第一批产品会在 7 月份开始销售。

AI 继续渗透到谷歌产品

首当其冲的，自然是最近改版的GMail。

自从 2004 年 Gmail 上线以来，就只有在 2011 年时进行过一次大改版，之后虽然不时地增添一点小东西，但界面本质上并没有太大的变动，如果有新功能的话，Google 也是先在 Inbox 推出居多。

大会上，我们看到Gmail 又引入机器学习能力，带来了一个名为 Smart Compose (智能创作)的新功能。Gmail可以根据收件人、邮件主题、几个内容关键字等简单因素，直接替你写邮件。当你输入内容的时候，Gmail会智能预测你接下来要说的话，替你补完。如果觉得合适，你可以直接按下Tab键，根据建议内容完成一句话。它设置会根据邮件内容，建议会议或会面的地址、时间。该功能会在本月开放给Gmail用户。

除了 Google Assistant ，代表谷歌计算机视觉服务的 Google Lens 也公布了不断演进的新功能。

Google Lens 并不是一个硬件，而是一个可以根据图片或拍照识别出文本和物体的软件内部功能，能实时分析图像并迅速共享信息。

通过 Google Lens 的技术，系统可以判断相机镜头对着的影像信息内容。

比如对着传单上的 Email ，会自动在手机上显示问你是要创建联系人、传送信件或只是单纯复制文字。Google Lens 还可以判断艺术作品、唱片或者书本封面信息，快速帮你搜索出相关信息。刚到一个新城市旅游的 Google Lens 用户，只需要用手机摄像头环扫四周，就再也不怕地图导航指错路了。

今年大会展示的新技能里，还包括拍照片自动识别图片中的建筑物。

另外还有一个大多数中国用户都很熟悉的应用：拍下美美衣服，系统会自动弹出网购渠道。没错，这俨然是中国的「拍立淘」。

相册还自带调色功能，融合了很多专业图片处理软件的功能。但是，当Pichai 的PPT上显示出一张黑白老照片时，腾讯优图实验室可能会笑出来。

今年过年期间，腾讯优图实验室就推出过类似的应用：老照片还原技术。效果是这样的：

由于黑白照片已经完全损失了最重要的色彩信息，利用人工智能算法，可以在对照片进行图像分割，区分出标志性物体后，利用标志性物体的图像中的语义信息填充颜色。

比如，一个训练良好的神经网络模型，可以很轻易地识别出图像中的各种语义元素，如天空、草地、建筑、人脸等，而且神经网络本身也可以自动记忆，如天空为蓝色，草地为绿色，人脸为肤色等。

再次，当谷歌拿出使用机器学习算法的 Google News 应用之后，又出现了「今日头条」的既视感。系统推送的新闻内容具有三个主要特点：首先，它会让你与自己关注的新闻同步；

其次，为了避免一叶障目的问题，系统会就你感兴趣的新闻提供多渠道、多角度的报道内容，并借用机器学习技术标注出新闻源的价值所在处。

最后，不断增加与你所喜爱的传统报业媒体合作。

Andriod P 来了

「 Android P 是 Google 将移动和人工智能整合的重要支柱。」Android 工程主管 Dave Burke 在发布Android P 时说道，「智能手机应该更聪明，它应该向用户学习并适应你。」

更聪明的一项改变是，用 AI 来管理电池寿命——自适应电池管理以及自适应亮度调节， DeepMind 提供了技术支持。

具体来说，自适应电池管理系统通过机器学习预测用户即将使用的应用程序，提供更可靠的电池体验。在应用程序被唤醒时， CPU 的耗电量能够降低 30%。

稍等一下，有没有感觉很熟悉？

没错，华为 Matte 10 内置麒麟 970 AI 芯片，而这款手机之所以能被称为「续航王」，也是因为它能根据用户使用习惯建模，利用机器学习预测用户使用行为，分配相应的手机资源。

而对于 DeepMind 来说，利用机器学习技术省电已经不是第一次了，阿尔法狗最初的商用方式就是给数据中心省电。但是，针对移动终端，这还是第一次。

自动驾驶？Waymo 没有带来多少惊喜

谷歌把最后亮相的时间交给了 Alphabet 旗下自动驾驶明星公司 Waymo，然而，也仅仅来了一次走过场式的演讲。

身着绿色上衣、牛仔裤的 Waymo CEO John Krafcik ，上台简单科普了公司的无人车「追梦」史，并再次预告了今年将上线自主品牌的共享出行服务 passenger-pickup ，凤凰城是第一站。很显然，这样的场合也不会刻意提及前些日子的事故。

通过视频展示，我们看到了凤凰城的部分居民参与其 EarlyRider 项目的场景，这是一个 Waymo 自动驾驶技术的体验项目。

另一位公司成员讲述了 Waymo 如何使用 Google 的机器学习算法让这位「司机」更聪明。

其中，一张图片让与会人士惊讶不已。

没有使用机器学习之前，汽车看到的雪景中的道路和汽车是这样的：

使用机器学习后，是这样的：

如今，Alphabet 已经成为一家年营收超过千亿的公司。上一季度财报显示，谷歌最赚钱的业务依旧是广告，尽管谷歌雄心勃勃地做自己的硬件。桑德尔·皮查伊曾于去年表示，接下来五年，硬件业务会成为公司财务的一大爆发亮点。

而这个突破点，或许就是 Waymo 。

产业谷歌 I/O 开发者大人工智能医疗谷歌助手Android P自动驾驶

相关数据

字节跳动机构

北京字节跳动科技有限公司成立于2012年，是最早将人工智能应用于移动互联网场景的科技企业之一，是中国北京的一家信息科技公司，地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端，通过海量信息采集、深度数据挖掘和用户行为分析，为用户智能推荐个性化信息，从而开创了一种全新的新闻阅读模式

https://bytedance.com

DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年，最初名称是DeepMind科技（DeepMind Technologies Limited），在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯，谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后，Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏，例如即时战略游戏《星际争霸II》（StarCraft II）。深度AI如果能直接使用在其他各种不同领域，除了未来能玩不同的游戏外，例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作，基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

语音合成技术

语音合成，又称文语转换（Text to Speech）技术，是将人类语音用人工的方式所产生，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

来源：张斌,全昌勤,任福继. 语音合成方法和发展综述

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心