记者 | 彭君韬(Tony)
参与 | Alex Chen
美国时间周五,位于硅谷的圣克拉拉会议中心,人头攒动,来自 17 个国家的 1400 多人参加了硅谷人工智能前沿大会 AI Frontiers。这些人有着共同的兴趣:AI。
这是 AI Frontiers 今年的第二场大会,为期三天。前百度首席人工智能科学家、Coursera 和 deeplearing.ai 的创始人吴恩达,以及来自 Google、Amazon、Facebook、Nvidia、Uber、EA、麦肯锡、阿里巴巴的代表,分享了语音助手、机器人、无人车、视频理解和游戏等领域在今年的最新趋势。
机器之心从大会现场带来核心内容:
吴恩达:发展 AI 就积极创业!
吴恩达的演讲,满是他在斯坦福大学当教授教课的样子:衬衫西裤,黑笔白板,无需演讲稿和 ppt,直接写出要点,开始演讲。
离职的这半年,吴恩达动作频频——创建 Deeplearning.ai;在 Coursera 推出基于深度学习的 5 项课程;加入他的学生 Alison Darcy 所创立的 AI 公司 Woebot 成为董事会主席;他妻子 Carol Reiley 所在的无人车公司 Drive.ai 也在今年完成 1500 万美元的融资,并和 Lyft 达成战略合作。
「AI 就是新的电力」,这句话成为了吴恩达的座右铭,他也以此做题,畅谈了 AI 对工业界带来的影响。
除了在 AI 的三大领域——语音识别、自然语言处理、计算机视觉做点到为止的讲解外,吴恩达提到现在科技公司的工作流程因为 AI 发生了巨大的变化。
「过去,互联网公司的项目经理会给工程师一个用户界面;现在,任何一个工程师拿着一张画着用户界面的草图都做不出一个聊天机器人出来,」吴恩达说。
另一个非常重要的问题是,传统科技公司+神经网络并不等于 AI 公司。要想实现 AI 在公司各层次业务上的普及,必须加入新的工作流程——你需要获取全新的战略性数据,统一化的数据分析,为有 AI 技能的工程师增加新的工作职位,比如说 CAO(Chief AI Officer)。
美国科技媒体 ZD.net 近日发表的一篇文章里谈论了工业界需要一个全新的首席职位,首席 AI 官或许会成为趋势。「是时候雇佣一个首席 AI 官了,」吴恩达在自己的推特中说道。
面对业内如今 AI 人才严重欠缺的情形,吴恩达也自然而然地为 Deeplearning.ai 站台,「学习 AI 基础的第一步是求助于 MOOC(大型开放式网络课程),然后做各种各样的项目,最后找到一份工作。」
就在近日,有消息人士透露,Deeplearning.ai 推出一个为期 30 天的深度学习训练营,招募编程能力强、有一定机器学习基础的人,培养他们成为能够处理深度学习任务的工程师。不过,还不清楚 Deeplearning.ai 如何在这么短的时间内训练出 AI 人才。
演讲的最后,吴恩达呼吁,「我们有足够的论文了!不要再发表了,准备用科技来改变人们的生活吧!」对急于向全社会推广 AI 的吴恩达来说,处于金字塔顶端的论文研究很难将 AI 深入到每个人的生活,人才只有加入工业界或者创业才能带来更多的变化。
投资的热区在哪里
这是麦肯锡的 James Manyika 第二次参加 AI Frontiers。这位美国前总统奥巴马的全球发展委员会委员、麦肯锡全球研究所的联合主管,专注于研究 AI 对工业界的影响。大会第一天,Manyika 从四个角度剖析了如今 AI 对工业界的影响。
投资的热区在哪里?从 2013 年至 2016 年,科技公司对于 AI 企业的投资和收购金额高达 200 亿—300 亿美元;风投在 AI 企业身上投入了 60 亿美元至 90 亿美元的金额,增长率是 285%,仅此于电动车。中美依旧是投资的主力,美国承包了 150—230 亿美元,亚洲地区则达到了 80 亿—120 亿美元。
然而,并非所有公司都会采用 AI 技术。依然有 30% 的企业不清楚在商业案例上使用 AI 的意义;41% 的企业不清楚 AI 的投资回报率;28% 的企业没有组建 AI 技术团队的能力。
什么样的公司热衷 AI?科技公司、通讯公司以及金融公司是拥抱 AI 技术的主力;建筑、旅游、教育以及医疗健康领域行业对 AI 技术的态度则相对保守。
早期使用 AI 的公司有这几个普遍的特点:数字化程度很高;企业规模较大;在关键的商业应用上运用 AI;更注重业务的增长和创新,而不是一味地减少成本;创立和 AI 相关的 C-level 职位。
AI 如何提升企业的表现?AI 对工业界的平均影响比例是 10%,对拥有大量实物工厂和设备资产的行业来说影响更大。
企业如何在应用 AI?Manyika 建议企业发展五个方面:AI 对案例的核心价值;一个数据生态;AI 相关的技术和工具;工作流程的整合;以及开放的组织结构。
下面,就是机器之能通过大会现场讲解总结的5大应用趋势。
2017 年,属于智能音箱
如果说 2016 年,智能音箱市场只有 Amazon 和 Google 两大玩家,那么到了 2017 年,自称是科技公司的都会在智能音箱上比划两下——Amazon 和 Google 分别推出智能音箱的第二代 Echo 2 和 Google Home Mini&Max;
基于 Siri 的 Home Pod 在 9 月的苹果发布会上亮相;微软的 Cortana 被包裹进了最新的智能音箱 Human Kardon Invoke;阿里巴巴则推出了天猫精灵 X1,内置智能语音助手 AliGenie。
Amazon Alexa 的主管 Ruhi Sarikaya 道出了科技公司哄抢智能音箱市场的原因:
谈话中包含的信息肯定比打字来的多,普通人讲话的速度比打字的速度快上 4 倍。这让语音成为了操作平台上新的输入媒介——IOS 有 Siri,Windows10 有 Cortanan,Google 的搜索应用里有 Google Now。
据 Gartner 预计,到了明年,将有 30% 的人机交互都会通过语音实现。
同时,智能音箱也要多亏深度学习在语音识别上的重大突破。如果语音识别的准确率低于 90%,机器是听不懂人话的。据微软的首席语音科学家黄学东介绍说,如今微软已经将错误率降到了 5.1%。
Sarikaya 介绍说,Alexa 的目标是通过机器学习和 AI,为用户提供最合适的应用,将不必要的任务,比如付账单,记事簿都交给机器来自动化,并且按需的服务,比如叫出租车、放音乐、寻找班车列表等等。
未来,Alexa 的回答也将更加智能,除了回答以外,还要主动地为用户提供服务。
自然语言交互的挑战是用户要求的不明确,比如用户问,「我晚饭应该吃什么」,这对 Alexa 不是一个明确的要求,也就需要 Alexa 自己选择调配什么样领域的知识和技能来回应这个问题。
Google 的研究科学家 Dilek Hakkani-Tur 主要分享了 Google 在端到端对话系统上的研究。
作为人机交互过程中的一个重要环节,对话系统需要将用户的要求翻译成带有标签的对话行为(dialogue act),比如用户是疑问句还是陈述句?语句有关什么内容?然后根据对话策略(dialogue policy),对话系统要选择一个答案。这当然需要大量的数据进行训练。
在训练过程中,Google 的研究团队也针对不同问题进行不同的学习模式:
「比如在对话级别的规划上使用了端到端的强化学习;在泛化到其他语言或者含义上,则使用迁移学习;训练谈话语言理解时,Google 采用 E2E MemNN(端到端记忆网络);
在训练对话策略的过程中则采用分阶段训练,先用人家专家的知识训练模型,再用强化学习在模拟用户和奖励机制任务的环境里学习,最后用交互式强化学习将前两者合并。
Hakkani-Tur 还提到了自然语言生成,用户模拟器和机器之间的交互。
「智能助手的挑战还有很多,比如语义不详的语言,定制化,更加自然生动的对话,多领域任务,以及跨越领域的交互,都是我们需要解决的问题,」Hakkani-Tur 说。
苹果 Siri 的高级主管 Alex Acero 介绍了苹果是如何将深度学习应用到 Siri 上,包括唤醒词的识别、大量词汇识别、语音合成、机器翻译和自然语言处理。
Acero 着重介绍了衔接语音合成技术,这是一种通过衔接短声音样本的方式输出文本-合成-声音;以及用深度神经网络识别唤醒词并触发 Siri,以及用大量 GPU 和深度神经网络训练 iWatch 上的唤醒词 Hey Siri。
机器人和计算机视觉
今年的 AI Frontiers 机器人单元迎来了两家初创公司——致力于高等智能机器人的 Vicarious,和致力于打造可爱家用机器人 Mayfield Robotics。
Vicarious 在上周刚刚发表了关于攻破 CAPTCHA(验证码)的论文,也因此频频出现在媒体头条。
机器之心近日与 Vicarious 的 CTO Dileep George 进行了深度专访,发现 Vicarious 并没有采用时下主流的机器学习算法——以卷积神经网络为代表的深度学习算法,而是采用了区别于判别模型的概率生成模型,结合对脑科学的研究。
George 也受到 AI Frontiers 的邀请,讨论了 Vicarious 的最新研究——递归皮质网络(Recursive Cortical Network)是如何攻破 CATPCHA,以及如何应用在机器人的操纵上,包括物体识别能力,以及在物体重叠的情况下也能很好地分辨物体。
Vicarious 已经和众多的机器人厂商、包括 ABB Group 进行合作。在其位于旧金山东湾 Union City 的三个办公地点,Vicarious 都购置了不同种类的机器人进行了实验。据 Vicarious 的商业总结楼兴华透露,该公司的机器人技术将会最早应用到工业领域的柔性制造中。
Mayfield Robotics 介绍了一款叫做 Kuri 的机器人——外表像极了大白(超能陆战队),装载着麦克风、摄像头、手势装置、扬声器、定位装置、驾驶系统(可以到处移动)和核心处理器 GPU。
和 Vicarious 一样,Mayfield Robotics 也在计算机视觉上发力,算法上,Mayfield Robotics 使用了 Google 最新提出的 MobileNets——一种基于卷积神经网络的嵌入式算法,用来进行人脸检测,宠物检测、人脸识别以及地点识别(用于绘图和定位)。
这样的算法对于实现 Kuri 与用户(小孩子)的互动,以及 Kuri 成为家庭录像和娱乐的能力至关重要。
视频理解成为计算机视觉的新大陆
今年,Google、Facebook 等科技巨头都发布了大型视频数据集或数据平台,这也意味着对视频理解的算法研究也在大规模地开放。
谷歌研究视频搜索功能、Youtube 和视频移动 app 的 Google 拥有很多基于图像和视频的应用,比如视频搜索、云视频 API、安卓相机、视频图书馆内容整理、手写识别、光学字符识别、以及 Allo 里个性化表情包、Youtube 的缩略图的预览优化、无声视频的字幕生成等等。
Rahul Sukthankar 是谷歌的高级工程师,他讲解了如何通过深度学习在大规模视频数据库实现多种目标,比如 Youtube 大型视频集注解、Youtube 视频缩略优化。
五年前,在输入和输出中间需要多个步骤,包括手动设计的描述符和码本直方图;如今,有了深度学习后,只要把数据扔进模型里就可以得到视频的字面描述,而且效果更好。
Google 在 2015 年写了一篇用深度神经网络训练 Youtube 的缩略图优化的博客,将网络上的视频缩略图(输入)和点击量(结果)做一个链接。
撇开这些过去的研究,Sukthankar 提到了视频数据集在未来的研究方向——自我监督模仿(self-supervised imitation)。Google 介绍了时间对比网络(time-contrastive networks),让机器能够学习视频里的动作,学会一些基本的操控和控制,比如倒水,或者站立。
Sukthankar 在最后分析了不同视频数据集的特色,比如:Sports-1M 和 Youtube-8M 适用于视频注解;HUMOS,Kinetics 和 Google 刚刚开源不久的 AVA 适用于训练视频里的动作识别;Youtube-BB 和 Open Images 适用于物体识别。
随后出场的 Facebook 计算机视觉主管 Manohar Paluri 介绍了今年新开放的图像数据平台 Lumos。
基于 FBLearner Flow 的 Lumos 是一个面向图像和视频理解的平台。Facebook 工程师不需要接受深度学习或计算机视觉方面的培训,就可以使用 Lumos 培训和部署新模型。
Paluri 也在大会上公布了令人兴奋的消息:明年年初,Facebook 将公布两个新的数据集——SOA(Scenes,Objects & Actions)和 Generic motions dataset。
今年加盟阿里巴巴 iDST 的任小枫也受邀参加 AI Frontiers,分享了阿里巴巴在视频理解中的需求,以及 iDST 正在解决的挑战,例如淘宝上的移动购物、优酷和土豆上的视频搜索和推荐、以及菜鸟物流和智慧城市的实时系统。
任小枫主要介绍了视频理解如何应用到阿里巴巴的具体业务,比如优酷视频中的物品识别可以直接和淘宝网的购物链接相连;以及最近淘宝推出了商品视频介绍,卖家可以拍摄有关商品的视频,淘宝会分析视频的内容,用于优化商品搜索。
自动驾驶「加速度」,两个月让无人车上路
在所有的 AI 初创公司里,自动驾驶公司无疑最惹人瞩目,而且,无人驾驶的研发正在提速。
今年四月才刚刚创立的景驰科技,仅用一个多月的时间就完成了首次封闭场地的无人驾驶测试;两个半月后,景驰科技获得了加州无人驾驶车辆测试许可证;公司成立 81 天后,景驰科技的无人车完成了在开放路面上的无人驾驶测试。
景驰科技的 CTO、前百度无人车首席科学家韩旭参加了此次大会。韩旭开场提到了汽车行业的三个未来趋势:
电动车让传统引擎和排放变得不再重要;汽车的销售会从 B2C 转变为 B2B;汽车未来的核心驱动力是 AI,软件会变得和硬件一样重要。
「谁能最先融合科技、共享经济和 OEM,谁最先赢得市场,」韩旭说。
韩旭对未来自动驾驶的普及有着清楚的预计:2018 年,无人车公司都能上路测试;2020 年,中等城市会赢来第一批无人车;2022 年,无人车在大型城市普及;2025 年,北京、上海、纽约等体量的国际之都将迎来无人车:2025 年之后,个人或许能购买一辆属于自己的无人车。
值得一提的是,在自动驾驶的单元里,韩旭遇到了他的金主——Nividia 自动驾驶的高级主管 Danny Shapiro。今年 9 月,景驰科技宣布了 Pre-A 轮 5200 万美元融资,Nividia 也参与了这一笔投资。所以,韩旭也在演讲之后的座谈会环节向 Shapiro 连连致谢。
Nividia 在自动驾驶的决心也不小,黄仁宇在今年北京的 Nividia GTC 大会上就高调表示,Nividia 要在 2030 年实现 L5 的全自动驾驶。
专注于硬件和芯片的 Nividia 也在今年 5 月推出了有关无人驾驶的硬件解决方案(包括计算平台 Drive PX, 操作系统 Drive OS, 车内交互智能开发工具 Drive IX SDK, 以及 Drive AV)。
另一位演讲嘉宾、Uber 的高级工程经理 Jeff Schneider 则扮演了一回大学教师,将自动驾驶的历史和基本元素——绘图(mapping), 定位(localization), 感知(perception), 预测(prediction), 路径规划(motion planning), 控制(control)解释了一遍。
游戏 AI:强化学习的暖床
大会第一天最后,Facebook AI 研究所田渊栋和 Electronic Arts 的技术总监 Magnus Nordin 讨论了关于 AI 在游戏中的应用。
田渊栋(左),Magnus Nordin(中)
田渊栋曾是 Facebook 围棋机器 DarkForest 的开发者,使用深度学习和蒙特卡洛数搜索将 DarkForest 提升至业余五段的水平。
之后,田渊栋就一直研究强化学习在游戏 AI 中的作用。他去年的一篇论文提出了一个新的框架,通过结合强化学习和课程学习,培训第一人称射击游戏(FPS)的机器人。
田渊栋还带着他的实习生在 2016 年 ViZDoom AI 大赛中成功获得了 Track1 冠军,比第二名高出 35%。
田渊栋也介绍了其他的项目,包括去年提出的 ELF 框架(Extensive, lightweight, and flexible)。任何基于 C++界面的游戏都可以通过这个框架进行训练,同时不需要大量的计算能力和训练时间。
田渊栋另外一篇研究机器人探索 3D 环境的论文也被 ICLR2018 收录。论文基于 SUNCG 的数据集,同时也采用多模态学习。
随后,EA 的 Nordin 介绍了 EA 近日的新动作——Seed(Search for Extraordinary Experiences Division),这是 EA 单独成立的一个研发部门,为了探索游戏中的一些全新体验,包括 AI。
据 Nordin 的介绍,EA 也在使用强化学习训练游戏机器人,基于奖罚机制来提高游戏水平。在一个躲避球的游戏里(吃掉绿色球得一分,碰到红色球扣五分),游戏机器人会通过强化学习不断提高自己的分数。
这样的训练方式还有不着不错的泛化能力,包括躲避球、射击游戏、赛车游戏都取得了不错的效果。
对 EA 而言,AI 不只是用来训练机器人的游戏水平。在 EA 的几款经典游戏系列《模拟人生》《战地》《FIFA》中,游戏场景生成就可以通过 AI 加速生成,即使是用户在平板上画上几笔,AI 也能学习如何生成例如山脉这样复杂的自然环境。
「未来五年里,游戏的变化会比之前 45 年的变化都要多,」Nordin 说。
另一方面,从 AI Frontiers 大会所讨论的内容不难看出,快速推进的产业应用得益于——深度学习的研究进展推进了语音识别、图像分类、自然语言处理等技术的惊人变化。然而,泛化能力的不足也一直备受行业诟病。
Google 高级科学家 Lukasz Kaiser 在会上介绍了 Depthwise Separable Convolutions,这个模型能够在多个领域进行训练,包括 ImageNet、翻译、图像字幕、语音识别语料库,以及英语的语法分析。同时,它还能够提高生成文字和图像的能力。
DSC 起源于 Google 大牛、Keras 的开发者 François Chollet 的论文《Xception: Deep Learning with Depthwise Separable Convolutions》。从结果上看,Xception 在各个领域都取得了很好的效果。
另外,值得注意的是,Kaiser 在今年 6 月发表了一篇论文,将 DSC 应用到了神经机器翻译上。
大会更多重要内容,机器之心会继续跟踪。