谷歌大脑负责人 Jeff Dean 在当地时间 1 月 11 日于硅谷人工智能前沿大会 AI Frontiers 现场对谷歌大脑中的深度学习相关工作进行了概述和回顾。会后 Jeff Dean 告诉机器之心,次日谷歌博客将发表一篇与演讲主题类似的总结性的文章,对谷歌大脑过去的工作做出更加系统的回顾。本文后还附有本文涉及的部分资源的汇集以及机器之心的相关报道。
谷歌大脑(Google Brain)团队的长期目标是创造更智能的软件与系统,从而改善人的生活,我们通过在多种不同的领域中纯科研的和应用型的研究追求这一点。鉴于这明显是一个长期的目标,我们想回过头看看过去一年中谷歌大脑团队已经取得的进展,并分享一些我们的 2017 愿景。
研究成果发表
评判研究质量的一种重要途径就是看我们在 ICML、NIPS 和 ICLR 这样的国际顶级机器学习会议上发表的论文。去年,这些大会一共接受了我们团队提交的 27 篇论文,这些论文的涵盖范围非常广,包括程序合成(program synthesis)、网络之间的知识迁移、机器学习模型的分布式训练、语言生成模型、机器人的无监督学习、自动定理证明(automated theorem proving)、对神经网络的更好理解以及改进强化学习的算法等等。另外,我们还有一些论文被其他领域的一些大会所接受,例如自然语言处理领域的 ACL 和 CoNNL 大会、语音领域的 ICASSP 大会、机器人学领域的 ISER 大会,计算机系统领域的 OSDI 大会。我们的团队向即将到来的前沿深度学习研究会议 ICLR 2017 提交了 34 篇论文。你可以通过 https://research.google.com/pubs/BrainTeam.html 了解我们以往发表的论文。
自然语言理解
让机器能够更好地理解人类语言是我们研究的关键环节。在 2014 年年末,三位谷歌大脑团队的研究者发表了一篇题为《使用神经网络的序列到序列学习》(Sequence to Sequence Learning with Neural Networks)的论文,展示了这种方法在机器翻译中的可用性。2015 年,我们表明这种方法同样还可以应用在生成图像标题、分析句子和解决计算几何问题当中。2016 年,之前的研究(再加上很多的改进)达到了顶峰,谷歌大脑团队的成员们和谷歌翻译团队的成员密切合作,将谷歌翻译的翻译算法用一种完全端对端的学习系统所取代。这个新系统将旧系统和人类高质量翻译对一些语言对的翻译差距缩小了 85%。几个星期后,我们展示了系统如何做「zero-shot 翻译」,学习翻译那些它从未见过的样本句子对的语言。此系统目前已被部署在了谷歌翻译服务中,其所能处理的语言对的数量也越来越多;从而能为我们的用户提供更高质量的翻译,并让人们能够跨越语言障碍更有效地进行沟通。Gideon Lewis-Kraus 在 2016 年 12 月《纽约时报杂志》的《人工智能的觉醒(The Great A.I. Awakening (http://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html))》一文中记录了谷歌翻译的历程(同时也记录了深度学习和谷歌大脑团队的历史)。
机器人
传统机器人的控制算法是精心设计并人工编程而完成的,因此将新的能力嵌入到原有机器人中是一个非常费力的过程。我们相信机器人通过机器学习自动学习获取新技能是一个更好的办法。在 2016 年,我们与 X 的研究团队合作,演示了机械臂是如何学习手眼协调的,我们的机器人在这项研究中大概进行了 80 万次的抓取试验,它们自己汇集经验然后教自己如何更快地完成任务。随后,我们研究挖据了机器人学习新技能的三种方式:通过强化学习(reinforcement learning)、通过它们自己与物体的交互以及通过人类的演示进行学习新技能。我们将在这项工作的基础上继续完成我们的目标,即让机器人能在纷繁复杂的现实世界环境中灵活地学习新任务技能与操作方法。
医疗保健
我们对机器学习增强执业医师诊断能力的潜力感到十分兴奋。作为这种潜力的一个示例,我们在美国医疗学会学报(Journal of the American Medical Association /JAMA)上发表了一篇论文《Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs》,并证明了用于图像诊断视网膜糖尿病视网膜病变(diabetic retinopathy)的机器学习系统可以与职业认证的眼科医生达到同等的程度。如果早期糖尿病性视网膜病变没有检查出,现如今将有 4 亿人口存在失明的风险。但是在许多国家,职业眼科医生的数量太少从而不能进行必要的检查,而这个技术将能帮助确保更多的人接受适当的检查。同时,我们还在其他的医疗影像领域内做一些研究,并调查使用机器学习预测其他医疗任务的潜力。我们相信机器学习不论是从质量还是效率都能提升医师和患者的治疗体验,2017 年我们将在这个领域内做得更多。
音乐与艺术的生成
科技一直在帮助人类定义媒体内容是如何创造与传播的,从印刷机、电影到电吉他都是这样。在 16 年,我们开始进行名为 Magenta 的项目,它主要是用来探索艺术和机器智能的交叉点及使用机器学习系统增强人类的创造力。我们从音乐和图像的生成开始,进而进入到了文本生成与虚拟现实等领域。Magenta 正在朝最先进的内容创造生成模型前进。我们为这些话题已经举行过一整天的研讨会,并举办过机器生成艺术的作品展览会。我们探讨了在音乐生成和艺术风格迁移等领域内的主题,并且我们的会话演示获得了 NIPS 2016 最佳演示奖(Best Demo Award at NIPS 2016)。
人工智能的安全和公平性
当我们开发出强大而复杂的人工智能系统,并将其部署到世界各个角落时,我们总会希望保证这些系统能够安全且公平,我们也希望拥有能够帮助人类了解机器生产方式的工具。在人工智能安全领域,通过与斯坦福大学、伯克利和 OpenAI 等大学和机构的合作,我们共同发表了关于人工智能安全问题论文《Concrete Problems in AI Safety》。该论文概述了一些人工智能安全基础研究应该首先着力的具体领域。目前,我们正在努力的方向是确保训练数据的隐私性,制定不同级别的隐私级别,其中最近的研究是通过知识迁移技术来保证隐私安全。
除了安全问题,我们也正着手让人工智能系统开始进行复杂的决策。我们希望人工智能在处理此类任务时能够保证公平性。在一篇关于监督学习机机会公平性的论文中,我们展示了如何把所有训练的预测因子调至最佳,以防止出现歧视。同时,本文描述了基于 FICO 评分机制的一项案例研究。为了让本研究更加易读,我们为此编写了可视化成果展示,以帮助更多人理解。
TensorFlow
2015 年 11 月,我们开源了一个 TensorFlow 的初始版本,从而让机器学习社区的其他人也能从中受益,让我们所有人都可以参与到 TensorFlow 的改进中来。在 2016 年,TensorFlow 已经成长为了 GitHub 上最受欢迎的机器学习项目,拥有超过 570 位贡献者的 10000 次以上的提交。在社区的贡献下,TensorFlow 的模型库也在不断增长,现在光是在 GitHub 上就有超过 5000 个与 TensorFlow 相关的项目了!
此外,TensorFlow 也得到了许多知名的研究团队和大型企业的采纳,其中包括 DeepMind;并且也还在许多非同寻常的应用中得到了使用,比如通过高空图像寻找海牛、帮助日本农夫挑选黄瓜。
我们已经为 TensorFlow 带来了大量性能上的改进、增加了分布式训练的支持、将其带入到了 iOS、树莓派和 Windows,并且还将 TensorFlow 和人们广泛使用的大数据框架进行了整合。我们已经扩展了 TensorBoard——TensorFlow 的可视化系统,带有用于可视化计算图和 embedding 的先进工具。我们还让 TensorFlow 可以通过 Go、Rust 和 Haskell 接入,发布了当前表现最佳的图像分类模型,提出了 Wide and Deep 学习,并且回答了 GitHub、StackOverflow 论坛以及 TensorFlow 邮件列表中出现的数以千计的问题。TensorFlow Serving 简化了在生产中应用 TensorFlow 模型的流程;而对于那些在云上使用的模型,Google Cloud Machine Learning 也提供了 TensorFlow 的托管服务。
去年 11 月,我们庆祝了 TensorFlow 开源一周年,并在主要的计算机系统研究会议 OSDI 上提交了一篇关于 TensorFlow 的计算机系统方面的论文《TensorFlow: A System for Large-Scale Machine Learning》。通过与谷歌的编译器团队的同事合作,我们也在致力于研究开发用于 TensorFlow 的后端编译器 XLA;最近我们已经将其一个 alpha 版本添加到了 TensorFlow 开源项目中。
机器学习社区参与
我们也在致力于教育和指导这一领域的人们如何使用机器学习以及开展机器学习研究。去年 1 月,谷歌大脑团队的一位研究负责人 Vincent Vanhoucke 与 Udacity 开放了一个免费的深度学习网络课程。我们还组织了 TensorFlow Playground,这是一个有趣的交互式系统,能够可视化简单的神经网络学习完成任务的方式,帮助人们更好地进行理解。
在 6 月份,我们迎来了 Google Brain Residents 项目的第一届 27 位参与者,他们是从 2200 名申请者中筛选出来的,在 7 个月的时间里,他们已经开展了大量的原创研究,帮助完成了 21 篇研究论文。
在 8 月份,许多谷歌大脑团队成员都参与了 Reddit r/MachineLearning 上的 AMA(Ask Me Anything)问答,回答了很多关于机器学习社区以及我们团队的问题。
过去的一年,我们还接待了 46 位实习的学生(大部分是博士生),他们也与我们的团队成员一起开展了一些研究。
让机器学习遍布整个谷歌
除了上面提到的公开的活动之外,我们也在谷歌内部不断开展工作,将机器学习专业知识和意识扩展到我们的许多产品团队,并确保谷歌能在整体上充分利用新涌现出的机器学习研究。比如说,我们与平台团队紧密合作,为谷歌的定制机器学习加速器 ASIC——张量处理单元(TPU)——提供了规格和高层面的目标。这种定制芯片能为机器学习负载带来一个数量级的性能提升,并且已经在我们的许多产品中得到了重要的应用,其中包括 RankBrain、最新推出的神经机器翻译系统以及在去年三月对战李世石的 AlphaGo。
总而言之,对谷歌大脑团队以及谷歌内外许多同事和合作伙伴来说,2016 年是让人兴奋的一年,我们期望我们的机器学习研究能在 2017 年产生显著的影响。
文中提到的部分资源:
TensorFlow GitHub:https://github.com/tensorflow
TensorFlow Stackoverflow:http://stackoverflow.com/questions/tagged/tensorflow
TensorFlow 邮件列表:https://groups.google.com/a/tensorflow.org/forum/#!forum/discuss
谷歌大脑提供的深度学习课程:https://www.udacity.com/course/deep-learning--ud730
TensorFlow Playground:http://playground.tensorflow.org/
Google Brain Residents:https://g.co/brainresidency
机器之心相关文章列表:
重磅 | Google Brain团队在线问答两万字全录:改变世界的技术、模型、团队与愿景(附论文)
深度 | CVPR 2016谷歌论文全收录:直击谷歌计算机视觉研究最新动态(附论文)
深度 | TensorFlow开源一周年:这可能是一份最完整的盘点
深度 | 谷歌官方指南:如何通过玩TensorFlow Playground来理解神经网络
资源 | TensorFlow版本号升至1.0,正式版即将到来
业界 | 谷歌开源新的TensorFlow代码,如何进行文本自动摘要
业界 | 谷歌 NIPS 2016 提交的8篇论文:从无监督学习到生成模型(附论文下载)
重磅 | 谷歌翻译整合神经网络:机器翻译实现颠覆性突破(附论文)
重磅 | 谷歌神经机器翻译再突破:实现高质量多语言翻译和zero-shot翻译(附论文)
谷歌深度解读:机器人可以如何通过共享经历学习新技能(附论文)
Show and Tell:谷歌在 TensorFlow 上开源图像描述系统
谷歌开源新的 TensorFlow 代码,如何进行文本自动摘要
谷歌开放 TF-Slim:在 TensorFlow 中定义复杂模型的高层库
谷歌新开源「宽度&深度学习」框架:结合记忆和归纳实现更优推荐(附论文)
谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移(附论文)
谷歌开放Inception-ResNet-v2:一种新的图像分类卷积神经网络模型
谷歌开源最精确自然语言解析器SyntaxNet的深度解读:一次关键进步以及一个重要工具
业界 | 谷歌公开两个机器人研究数据集:Grasping + Push(附论文)