Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

图森面试官| 图森未来首席科学家王乃岩:播下去的种子,早晚会开花

王乃岩,90后,狮子座。现任图森未来首席科学家。除此以外,他的名字后面还经常和“深度学习应用于目标追踪领域全球第一人”、“2014 Google PhD Fellow计划入选者“、”MXNet核心开发者“等等联系在一起。对于学术圈的人来说,对他自然不陌生;在自动驾驶领域,他也早已和图森未来CTO侯晓迪,成为了公司的金字招牌。

作为图森未来算法部的掌舵人,除了活跃在知乎之外,他很少在公众面前,讲述他自己的故事。为什么选择PhD?为什么选择做无人驾驶?作为图森未来首席科学家,他工作的价值观又是什么?我们一起听听这个大男孩,自己说。

前10年:保送浙大、港科大直博、百度IDL、CMU

这个标题开的很大,颇有“你的同龄人正在甩开你“的味道。但其实你会发现,他并没有”甩开“谁,只是比普通人更”幸运“,更早一步找到了自己的兴趣所在。可就像蝴蝶效应一般,这从来不是什么偶然事件。

虽然的确在大一的时候,他并没有想好到底要做什么。这样的”没有想好“在现在看来,其实都是那个年纪自带的属性。本科通过计算机竞赛被保送进浙江大学的他,一开始就很明确计算机这个方向,也就自然而然将本科前两年的时间,放在了ACM竞赛上,直到拿到当年的亚洲区域赛金牌后,竞赛这件事对他来说,才算告一段落。

正式接触机器学习,源于他自己的一个爱好。乃岩喜欢摄影,他说自己是一个生活的记录者,喜欢用拍照的方式,来记录平凡的生活,并以不同的视角来观察这些平凡。不过,俗话说摄影穷三代,单反毁一生。一开始预算有限的他,买不起昂贵的相机,就开始研究怎么利用所学压榨出硬件的最后一份潜力。很快,乃岩就发现当时最先进最流行的数字图像处理技术叫稀疏表示,这也是后来机器学习中的一个分支。正是这份源于兴趣的原动力,冥冥之中将他推向了机器学习。而真正引他入门的,便是后来对他影响很深的导师,张志华教授。

乃岩的摄影作品大多以街拍为主张志华教授那年刚从UC Berkeley回国,一直从事机器学习和其在数据挖掘计算机视觉中的应用。回国之后,张志华教授在浙江大学开设了一门数值分析课,从没有系统性接触过机器学习的乃岩,带着好奇,去选听了张教授的课。他或许也不知道,命运在那天,就埋下了种子。

那节课之后,乃岩对数据分析产生了浓厚的兴趣,张教授在机器学习方向的建树,也让乃岩对这片未知的领域,更加着迷。现在,他也常常用张志华教授的话来告诫所有新人:读博应该是源于自己对未知问题的兴趣,而绝不是迫于家庭期望或逃避工作进入社会的现实读博是兴趣与好奇心的perfect match.

因为假使没有兴趣作自我驱动,读博的这段经历,将会非常痛苦。幸运的人,靠的不光是天赋,所以幸运才选择了他。

本科毕业之后,他顺利申请到香港科技大学计算机科学与工程专业的直博机会。并在博士三年级,就完成了4篇计算机视觉顶会的一作论文。乃岩当时的博导杨瓞仁(Dit-Yan Yeung)教授,在研究上一直强调论文topic的重要性,并且也会给予学生充分的自由去寻找自己感兴趣的topic。

与杨老板在博士毕业时的合影如此一来,乃岩在博士前两年,接触了很多看似和现在不相干的工作。但恰恰是这些不相干,拓宽了他的视野。他做过数据挖掘推荐系统、也尝试过Bayes图模型的研究,虽然并不深入,但这些尝试在后来的科研过程中,都起到了很大的帮助。最直接的影响便是他的毕业论文。

一次无意中,他看到一篇关于稀疏表示在目标追踪工作相关的文章,可乃岩觉得这篇文章中的工作并没有做透,很多关键的本质原因并没有解释清楚。而他之前在Bayes图模型上的研究经历,恰好可以给予一个不同的视角来解决这篇工作中的不足。于是他在博二下学期,基于他发现的问题,开始了研究。最后将把Bayes矩阵分解运用到了目标追踪上来。就像开枝散叶一般,乃岩在目标追踪领域的研究逐渐更深入,论文的产出也自然变成了水到渠成的事情。

他说他相信,播下去的种子,早晚会开花。

另一边,Dit-Yan Yeung教授还非常鼓励乃岩尽量出去看看外面的世界,而不是一直呆在学校这个象牙塔里。所以在博士阶段的最后一年,他去百度IDL实习,又到CMU交流访问。他说读博的4年间,最后的两段经历,带给他的触动才是颠覆性的。

乃岩说他喜欢从相机里观察外面的世界在IDL实习期间,他参加了ImageNet发起的挑战赛ILSVRC,这项比赛的目的在于,在给定的数据集上,评估参赛者在几项视觉识别挑战任务中,其算法的准确性。

ImageNet在学界被称为深度学习热潮的关键推动者之一,它最早源于2009年,由斯坦福大学计算机科学系教授李飞飞,在CVPR2009的一篇论文中提出的大规模数据集项目。也是挑战赛ILSVRC的开端。2012年,深度学习第一次在ImageNet比赛中展现了远超传统方法的实力,这样深度学习才渐渐走入主流计算机视觉研究的视野。正因为这场比赛,众多 ImageNet 挑战赛的参与者发展成了创业公司,这其中包括后来被Google收购的DNN Research。

两年后,乃岩和他当时在IDL实习期间的伙伴参加了这项比赛,并获得了不错的成绩。这是他第一次真正深入接触到做计算机视觉技术的人的想法中。原来思考问题的方式可以如此不同,评判工作好与不好的角度也跟在实验室里完全不一样。

同样地,在CMU的半年访问,又在他科研的道路上,留下了厚重的一笔。后来他在他的博士总结里这样说道,CMU的每个老师想的是怎样做有影响力的研究,怎样做十年、二十年后还会让人记得的研究,而并不是非理性地去追求顶会论文的接收数量。

在他亲身体会到如此纯粹的科研态度、接触到工业界真正做计算机视觉人的想法之后,至此,他的科研道路才正式开启。

首席科学家:不畏惧做No One

对科研的纯粹,让乃岩认识了拥有同样对未知领域具有敬畏之心并且想要用科学技术解决实际问题的侯晓迪。侯晓迪,图森未来CTO,博士毕业于加州理工大学计算与神经系统专业。

和晓迪的认识,源于人人网。乃岩在人人网上看到当时晓迪的工作,觉得很感兴趣,两人就聊了起来。直到现在回想起来,乃岩说只有用“冥冥之中注定”来形容他们的创业过程,因为真的太神奇了。一个大家都感兴趣的研究领域、几个想法一致的伙伴,在“公司”这个实体还并不存在的时候,他们就开始了创业。

所以当问到他为什么要创业的时候,乃岩说他没有考虑太多,“我只是想发挥我的能力和特长,做的开心就好”。

但是一开始,团队必须要经历一个No One的过程。解决问题本来就是这个团队的初衷,也是他们一直以来信奉的工作态度。没有人知道他们,那就想办法让别人知道。2016年初,从没有做过检测分割任务的乃岩,带领几个实习生和北美同事一起,在当时国际上最大的自动驾驶场景下的计算机视觉算法评测数据集KITTI和计算机视觉语义分割数据集Cityscapes上打破十项无人驾驶领域世界纪录。

这些成绩对于别人来说意味着什么,我们无从而知。而对于乃岩来说,最大的意义并不是在技术上积累了多少,而是从那个时间点开始,他对所有未知都不再畏惧。“任何事情只要我们想去做,我们一定可以做成”。

自动驾驶行业本身就是会遇到很多新的问题,这和做科研很像。每天都要不停去学习新的知识来解决新的问题。很多人把我们做的事情比作是登月,乃岩却有他自己的看法“Apollo登月计划,成功了6次就名垂千古,但是对于自动驾驶来说,我们要保证10000次里也不能失败一次。从这个角度来说,自动驾驶是比登月更有挑战的事情。所以这个事情做好了,我们真的是可以被历史记住的。”

用正确的方法做正确的事

受博士期间实习和交流访问经历的影响,让乃岩看到一个好的实习或是工作的地方,带给人的影响是非常大的。不论是当年和他一起实习的同僚,还是当年的mentor,现在都已成为各大明星AI公司中,独当一面的负责人了。所以到现在,当他的角色反转,变成一个mentor的时候,他也希望每一个在图森未来实习或者工作的同学,都能有自己的收获。“我们希望大家是双赢的状态”。

所以乃岩一直在他的团队,推行1对1的导师制度。通常,他和团队会给新人一个2-3个值得去做的topic,大家在讨论之后,选择最终的topic进行工作。在这里,最优秀的实习生曾经用1年半的实习时间,发了4篇论文。而平均来看,每一位在这里实习过一年的同学,都会有至少一篇科研论文的产出。乃岩说这是一个很自然的过程,如果一直在正确的方向努力,产出是必然的,我也希望离开图森的同学,在5年10年之后,回过头来看,也会像我感激MSRA和IDL一样,感激在图森的经历”。

正因如此,为了给所有在图森未来实习或者工作的同学,创造一个正如当年IDL或者CMU那样的环境,面试的筛选门槛自然也很高。“我不会创造一个平庸的环境,大家应该一起为公司的成长负责。乃岩如是说。

除了竭尽全力创造一个好的科研环境,他最大的职责在于确保团队的行进方向是正确的。避免浪费时间最关键的步骤是,决定什么事情不做。选择最有价值和前途的事情远比做事情本身更重要。如果一个技术花了3个月做完发现没有用,他说他会觉得很自责。“我最大的责任是帮助大家减少战略上的愚蠢,我不喜欢用所谓hard working去弥补内心的不安,盲目努力是没意义的”。

如何减少战略上的愚蠢?要做到这件事,就不得不提到Research taste这个词。这个词,是他读完《禅与摩托车维修艺术》这本书之后总结的。(传送门:https://zhuanlan.zhihu.com/p/86026116)乃岩认为,taste代表的就是一个人对于自己关心的某个领域最顶层的认知以及发展趋势,它完全贯穿于一个好的研究者的工作中。他们往往都是用最简单的方法解决最本质的问题,没有刻意的包装。作为一个公司的首席科学家,他希望带给团队的,也正是这样的讯息:提出正确的问题,用正确的方法解决问题。

而盲目努力,这里大可理解成一些看似很辛苦,实际没有任何产出的996。乃岩自己是一个work life balance的工作者,除了工作,他还是一个骨灰级滑雪爱好者,更对飞行展现出极大的兴致。经常可以看他在朋友圈po滑雪或者飞行的照片,就会好奇科学家为什么会有时间做这些,还都做得非常不错。乃岩的解释是,果用正确的方法去做了正确的事情,自然可以减少无谓的加班,去成就自己的其他爱好。

工作以外,他是飞行爱好者小王

乃岩负责的算法组,团队年龄平均25岁。这一代职场人拥有和父辈非常不同的成长经历,所以他们对于自己的工作会更有想法,更聪明,也更直接。面对“自己是如何管理好这样年轻的团队”的问题时,乃岩没有思考太久,就说了两个字:信任。

"人多了之后,每个人都会有自己想做的事情,但是我会确保让大家在目标一致的情况下,给予他们充分的自由,这也是我博士老板Dit-Yan Yeung教会我的”他补充道。乃岩非常重视职场中“人”的因素,所以在人才选拔上他坦言自己更偏好于年轻人,因为他们更加“think out of box”

CV岗位过热了吗?

最后,引用知乎上这个热议的问题,作为这篇的结尾。

竞争的激烈难免带来焦虑,这些焦虑,有来自外界的,也有来自同龄人的。乃岩也说自己会在一些特定时期感到焦虑,他说只有当自己看不清楚问题的本质时,才会感到焦虑,但是即便这样,这个过程也不会持续太久。因为这些问题最后都会被分解成:

1.问题是什么?

2.问题涉及到的范围是什么?

3.它的输入输出是什么?

4.如何建立评价标准

5.解决问题

乍一听起来,可能有点一头雾水。乃岩说这就是做博士研究的步骤,同时也是做任何事的方法论。解决问题是所有环节的最后一步,真正重要的是定义清楚第一步。

那么,我们再回头看看这个问题。CV岗位过热这个问题的本质是什么呢?我们更愿意这样定义这个问题:能够帮助公司业务产生价值的人,还是非常稀缺。

为什么这么说?

The Hype Cycle早就将这个过程定义的非常清晰,任何事物的发展都会经历从诞生、过热、泡沫、重来、实际产生价值的5个不同阶段。所以的确,现在CV这个领域的赛道看似已经拥挤不堪,但真正那些可以最终给公司带来价值人,却凤毛麟角。

如此,这个问题的答案就非常明朗了。

对于普通人来说,是,的确存在盲目涌入赛道的现象;

而对于金字塔顶尖人才来说,则赢者通吃。

那么,如何从容不迫地去面对来自外在环境的压力?乃岩用洋葱打了一个比方。最核心的是修炼自己的内功,就像是洋葱的最里面,这里面包含了一些基本的素质,例如好奇心、自驱力、分析和逻辑能力;中间一层则是针对问题的一些基础,例如对于数据的敏感度,Coding和数理的基础等等,所谓行业应用,像是人脸识别、自动驾驶等等,才是最外层的。无论外部的应用如何改变,内核的基础才是最值得花时间去攻克和讨论的。

所以,或许所有正在担忧CV岗位是否过热的人都可以这么问问自己的内心,现在自己在什么位置,以及自己即将或者可以到什么位置。修炼自己的内功,才是以不变应万变的重中之重。毕竟,我们有理由相信,播下的种子,早晚都会开花。

虽然我们的校招行程已经全部结束,但是招聘还一直进行中。乃岩从面试官的角度,也给了一些建议。除了扎实的背景知识和代码能力之外,以下也是我们的考察重点:

A.presentation的能力。这是很多学生最容易忽视的一点,而恰巧也是面试过程中,非常重要的一点。如何将自己的research通过一个更容易让人信服的形式展现出来。这其中包括了如何展现清晰的思考逻辑,如何分配详略和重点,如何运用语言等等。在之前的面试过程中,经常有候选人一上来就说“用了XXX网络”,而忽略了对前因后果有条理的表述,这是很减分的。这也是一个需要长期培养的能力,也希望大家尽早准备。

B.    面试者应该尽量保持开放的心态,不要过于defensive。通常我们在面试环节,会循序渐进安排3-4个比较有挑战的问题,以此来发现候选人在过去的工作中是否有一些不足的地方。这个时候,如果可以大方承认工作中的不足,可以接受面试官的质疑,这点我是比较欣赏的。

 C. 主观能动性。这一点的考察,主要是看候选人在面对不会的问题时,是否有积极的思考,而不是遇到不会的问题就直接放弃,哪怕回答不完全正确都没有问题。我会在面试过程中,给面试者提升和引导,面试的过程是一个交互的工作,我希望面试者不是机械性地回答问题。

 以上,就是这一期的全部内容,祝愿大家都能在校招季,收获自己的dream offer啦!

岩归正传
岩归正传

TuSimple · Chief Scientist 王乃岩博士关于机器学习与计算机视觉的技术实践与分享

理论图森未来王乃岩
相关数据
图森未来机构

图森未来(NASDAQ:TSP)于2015年9月成立,在中国、美国设有研发中心,员工超过1000人。2021年2月,图森未来完成超过4.15亿美元的E轮融资。4月,图森未来正式登陆纳斯达克挂牌上市,成为全球无人驾驶第一股。

http://www.tusimple.com
Stanford University - Computer Science Department机构

斯坦福大学计算机科学系隶属于工程学院,提供理学学士、理学硕士和哲学博士学位。它还参与了以下本科跨学科项目:计算机系统工程、符号系统、数学和计算科学。计算机科学系成立于1965年,是本科和研究生阶段的研究和教育中心。强大的研究团队致力于人工智能、机器人学、计算机科学基础、科学计算和系统领域的研究。计算机科学的基础工作是这些小组的主要研究目标,但是也非常强调跨学科研究和促进基础研究的应用。跨学科工作涉及化学、遗传学、语言学、物理学、医学以及工程、建筑和制造等各个领域。该系与大学其他系中对计算机感兴趣的研究人员保持密切联系。此外,教师和学生通常与附近研究机构或行业机构的调查人员一起工作。主要的教育目标是让学生为学界或业界的研究和教学职业做好准备。

李飞飞人物

李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

港科大机构

香港科技大学(The Hong Kong University of Science and Technology),位于中国香港,简称港科大(HKUST),为环太平洋大学联盟、全球大学校长论坛、东亚研究型大学协会、亚洲大学联盟、中国大学校长联谊会重要成员,并获AACSB和EQUIS双重认证,是一所亚洲顶尖、国际知名的研究型大学。该校以科技和商业管理为主、人文及社会科学并重,尤以商科和工科见长。截至2019年9月,学校设有理学院、工学院、工商管理学院、人文社会科学学院等4个学院及跨学科课程事务处;校园占地超过900亩,有教员697人,各类学生16054人,其中本科生10148人,研究生5906人。

https://hkust.edu.hk/
百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

流计算技术

Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,比如map、reduce、join和window。

暂无评论
暂无评论~