「这是一段早就计划写下的故事,无奈毕业季起起落落的心情,一直搁浅。现在将这段时光记录下来,主要为了自己回顾,其次也愿给准备踏上学术道路的朋友一些借鉴。」
2012 年生日当天,我踏上了异乡求学的路途。在此前的 1 个月,本科毕业。本科期间零文章,拿得出手的研究经历就是参加了系里的一个叫做拔尖创新人才的项目。在清华,科研大牛出没的地方,是星火、思源、挑战杯。而我跟这些字眼零交集。在大四参加优秀毕业生答辩的时候,我写上的本科四年最得意的经历是:拍班剧、读经济双学位、去港大当交换生参加 NGO……
然而,最后我确实拿到了很好的 offer。于是,带着忐忑,带着憧憬,我就这样踏上了异乡求学之路。一开始,我其实也并没有多么坚定地想读博士。因为没有正儿八经在实验室待过,觉得五年的时光像黑洞一样见不到底。后来老爸说,五年快得很,英语还没学会就毕业了。我将信将疑,接了唯一一个给了我五年奖学金的 offer,就这样来了美国。
虽然本科期间没有做过像样的科研,但是我对闭环系统、博弈论、微观行为的宏观影响一直很感兴趣,这些思考在后来我选择研究方向的时候起到了非常重要的作用。第一次真正接触到闭环系统理论是在港大上货币经济学的时候。老师用了闭环状态空间模型(State space model)来描述货币发行、货币价值以及宏观经济货币总量之间的关系。上这门课的时候是 2010 年,2008 年的经济危机的阴霾刚刚散去。我们用的课本是刚刚重新修订过,增加了很多 08 年经济危机的案例讨论。那时我常常泡在图书馆里,津津有味地读一个又一个案例讨论,看闭环系统里错误如何被强化、系统里不同的决策者之间如何互相博弈、而这些博弈的结果又如何最终影响了宏观经济。这些阅读和思考让我彻底走出了当年爆火的《货币战争》的「中二」世界观,而且深刻地影响了我后来的研究。
那时,我也开始隐隐约约地明白经济学和工程学有很多数学模型是通用的。机床的控制与货币的控制一样都是闭环决策,只是面对的控制对象不同。港大交换结束后,我很期待回清华上控制工程原理,找找工程上的闭环系统和经济学里的闭环系统之间的异同。可惜没上两节控工,课程内容就从时域转入了频域——然后我就迷失了。再次捡起是在伯克利重新学习控制理论的状态空间模型后。
很多人都问我为什么当时不去念经济学的研究生,我其实有犹豫过。在经济系统中,理性人的行为不可被内生设计、只能被外部诱导,这便带来了巨大的局限性,使得经济学的研究偏向于解释、验证、分析(至多也只能做一些宏观上的制度设计去诱导行为)。但在工程领域,机器人的行为是完全被内生设计的,于是这带来了一个极大的自由度。一方面,很多计量经济学无法验证的想法、无法构造的实验,未来全都可以在一个机器人的乌托邦里实现。另一方面,我很好奇这样一个人和智能机器人共存的社会会走向何方,错误是否依旧会被强化、人类是否永远能在博弈中获胜?欲知答案,不如亲身参与。
01
2012-2013:跌入泥泞
来美国之前对未来的科研有着太多不切实际的幻想,以为明天就能有一个跟自己一样的机器人站在眼前了。脑袋里充斥着科幻,接触的却是零碎杂活,一时间巨大的落差和认知上的鸿沟让我不知所措。
因为拿着奖学金,第一年并没有太大的项目压力,导师让我参与准备一个美国科学基金(NSF)的标书,主题是通过上肢外骨骼增强人类的工作效率。一看这酷炫的主题,我欣然答应。我以为的项目重点在于识别人类意图然后帮助人类完成意图,但后来才发现这个项目的重点在于机构设计:如何设计一个可以适应各种人群生理特征的机械外骨骼,如何在驱动器的设计上加入柔性,使得其更贴近人类肌肉的工作方式。
几经沟通和磨合,我选择了设计可调刚度的驱动器。想法很简单,就是在驱动器的输入输出间加一个可变刚度的机构,比如可调整力臂的杠杆。概念很容易,但是实现这个想法难点有,设计尺寸、摩擦损耗、电线缠绕、机械结构的链接和支撑等等都需要考虑。我自己做了一个版本的设计。正想要得到一些反馈以完善设计的时候,但是在没有任何校核的情况下,大家竟然鼓励我让我把它加工出来。好吧,既然大家都这么说,我就哐哐哐上马开始加工驱动器了。在车间泡了好几个星期,终于做出了成品。不过,毫不意外,因为连接结构设计得不好,这个装置最终根本就动不了。
这个失败的项目让我开始反思科研的模式。一直以来,我以为的做研究就是老板(或高年级师兄师姐)布置一个任务,我尽力去完成。然而后来才发现,其实大家都是在探索未知,没有谁能保证路线的正确性,尤其是在一个陌生的领域,所能获得的指导和帮助极其有限的情况下,更需要变被动为主动,有自己的判断和观点。如果当时相信自己的判断,先完善设计再加工,那么就不会浪费那么多时间做一个废品。
读博的这第一年虽然走了弯路,但是却让我以最快的速度触碰到了「真实」,懂得了如何脚踏实地地推动研究、如何与他人合作、如何处理与导师之间的关系,最重要的是,懂得了什么是自己不想要的。我想,如果我被动接受了一个还不错的项目,可能也会按部就班地做下来,但是恐怕难以心安。这一段弯路,好像让我从云端重重地跌到了泥里,非此难得警醒,非此不知反思。
不过这一年也并不都是失意。科研以外,我上了很多课,其中人工智能导论(CS188)对我影响最深。我惊讶地意识到:课上不断强调的智能体(Agent)行为,不正合了经济学里的理性人假设吗?!智能体和智能体、智能体和环境的交互,不正和微观经济学互相对照吗?!打通了这些认识以后,虽然并未有任何实际性的改变,但是却让我的学习热情高涨。学期结束后的某一天,任课老师专门给我发了一封邮件祝贺我拿下 300 人里的最高分。
此外,我还意识到,人工智能课上的很多知识其实和控制理论也几乎可以一一对照,马尔科夫过程对应状态空间模型,马尔科夫决策过程对应最优控制,强化学习对应自适应控制等等。然而当时的我隐约感受到前者代表「时尚」,后者则被迫成为「经典」。在学术界成为波澜不惊的经典可不是一件好事,浪潮汹涌的时尚才是大家追逐的对象。然而可笑而无奈的事情却是,有时时尚和经典之间不过换汤不换药,名字一改、另起炉灶,又是一条好汉。
虽然同样的概念在不同领域以不一样的名字出现,但许多根本性的理论问题并不因名字的不同而消失,比如强化学习以及自适应控制里迭代的收敛性。为了搞明白这些问题,我找了一些论文来看,然而并看不懂。这时我意识到自己的数学知识储备不足。于是我决定辅修数学。
02
2013-2014:初见曙光
虽然我第一年做设计的尝试失败了,但这个上肢外骨骼项目最终还是成功地得到了 NSF 的资助。按照原计划,这个项目会成为我的博士课题,一直做到我毕业。这时,我开始重新评估这个项目对我的吸引力。我发现这既不是我的特长,更不是我的兴趣所在。当时的我隐约有一些研究上的想法。虽然还无法描述清楚,但一定不是做自己都没底气的设计,泡在车间里加工零件。
怎么跟导师说明自己的想法呢?还要不要在这个实验室待下去呢?我找了很多实验室的师兄师姐请教,包括带我做项目的博士后。现在想来最可笑的事情是,当时尚描述不清自己的想法,于是我跟博士后师兄说我觉得上肢外骨骼这件事情缺乏「美感」,不如推公式写证明「漂亮」。博士后师兄竟然没有反驳,而是悠悠地建议我好好想想怎么跟导师说。
于是开学后的某一天,我带着忐忑的心情敲开了导师办公室的门。导师笑眯眯地看着我,我鼓足勇气说:我不想做外骨骼了,我有更想做的研究。导师笑容散去,略带严肃地看着我说:你不必觉得被捆绑到外骨骼的项目上了,我有很多学生,再找一个来做这个项目并不难。但关键是你想做什么?听闻此言,我悬着心放下了一大半,说:我想研究机器人和人怎么交互,怎样互相合作,机器人和人怎么构成一个完美的社会,我觉得这样的研究很酷。导师又笑了,说:我们不是因为酷而做研究,我们要解决实际问题。你想研究人机交互,这很好,但是你需要把它和实际问题结合起来。比如一个好的切入点就是:怎样保障人机交互的安全性。台湾的工研院正和我们实验室开展相关研究,你可以从这个角度想一想如何开展你的课题。我说:好啊,那我回去研究研究。
我没有想到导师如此开明,本来想转组的想法也打消了。把上一年制造出的破铜烂铁统统锁进柜子里,我开始摸索新的研究方向。
2013 年是值得铭记的一年,那年秋天,工业机器人第一次走出铁笼,开始和人类工人一起出现在汽车的总装线上。一个名叫 UR5 的机器人成了产业明星。工业 4.0 被提出,柔性生产、人机协作都是未来的发展方向。与此同时,从事自动驾驶研究多年的谷歌推出了第一款无方向盘无油门的自动驾驶车型 Firefly,无人驾驶从前沿研究走进大众视野。这些场景都给人机交互提供了绝佳的注脚。工业机器人需要与人类工人协作,无人驾驶汽车需要与人类道路参与者交互。此外,「解放」机器人的呼声越来越高,他们被允许与人类共享空间,拥有自主决策。在好莱坞,「机器人摄影师」被用来自动近距离跟拍动员演员。在医院,用于康复治疗的外骨骼机器人会主动矫正患者的姿态。当这些机器人被解放,他们的安全性也就需要重新评估和定义。
传统的机器人安全措施就是减速加急停,但这已完全不能运用在新的场景中。在人机交互的情境下,机器人需要正确读懂人类的意图,并基于此作出反应。问题是:安全问题的本质到底是什么?我联想到微观经济学里的产权理论。如果把人和机器人共存的空间当做稀缺的「资产」,产权便指向单个个体(人或机器人)可以自由移动的那一部分空间。产权具有排他性,任何两个个体不可能同时出现在同一个空间里。在从前的工场,人和机器人之间的产权是由铁笼子界定的,机器人在笼内,人在笼外,非常明晰。而人和机器人协作的场景中,产权便成了一个时变的概念,不同时刻有不同的界定。那么安全问题的产生其实是因为双方对产权产生了分歧。
那么如何让双方达成共识呢?我想到的解决方案是对于所有可能的产权分配方案建模,不断预测人心中的分配方案是哪一个,然后把机器人的行为限制在该方案下。这个想法虽然在描述上显得很「玄」,但它在数学上有一个非常简洁漂亮的表达。我们只需要在系统的状态空间(包含了人的状态和机器人的状态的叠加)定义一个安全的产权分配集合,然后设计一套控制方案使得系统的状态不会离开该集合即可。最简单的机器人控制方案就是:一旦预测系统状态即将到达集合的边缘,我们就通过控制机器人的状态把它「往回拉」。数学上,这涉及到 Lyapunov 函数,李导数(Lie derivative),滑膜控制(sliding mode control),欠驱动系统,自适应控制等等概念,不再赘述。我们把这套算法叫做安全集算法。
就这样,我写出了早期两篇关于人机交互和人机协作的文章,其中一篇还有幸入围了最佳学生论文的甄选。
这是一个令人激动的时代,由于技术的不断积累和硬件成本的不断降低,许多存在于科幻作品中的场景正在变成现实,热潮虽然还未来临,但是变革已在广泛地发生。2013 年秋天,第一届斯坦福伯克利机器人论坛在伯克利开幕,这是一场学术界和工业界的联谊,宣告着彼此共同推动机器人发展的信心。两年后,论坛改名为湾区机器人论坛。我很幸运,我的兴趣正契合了时代的发展(也许亦是受了时代影响)。这是一场新的游戏,未来很广阔,参与者尚不多。在游戏规则尚不明朗的情况下,有很多空间施展拳脚。
03
2014-2015:第一个 NSF
来伯克利的时候以为可以拿五年奖学金,可是后来才发现只有前两年是没有任何义务的奖学金,后三年只是保证了我会得到资助,但需要做助教或助研作为交换。然而,两年过去了,并没有任何相关项目能提供给我助研的机会,而我也不愿意为了生活费把时间浪费在不相干的项目上。导师其实非常支持我的研究,曾多次向工业界「推销」我的工作。然而由于种种原因,第二年结束时并没有哪家公司愿意资助我的研究。这时,导师说:不如我们试试 NSF 吧,政府更愿意资助前沿基础研究。
虽然此前已经参与过一次 NSF 标书的准备工作,但当时只不过是打杂,这一回却要独立写一份完整的标书。当时支撑我写下去的动力,除了资金压力,还有就是希望提早体验一下教授的工作。此前两个暑假,我都在一家硬盘公司实习,大公司的面面俱到井井有条让人惊叹,也让人窒息。也许学术界更适合我?那么写 NSF 标书也算提早体验一下学术界的日常了。
借着写标书的机会,我阅读了大量文献,发现了很多有意思的研究。但是着手「写」标书却不那么容易,花了将近半年时间,几经修改,终于写出了一份完整的标书。期间意外解锁了我的画图技能,在英文蹩脚的情况下,能画图说明的地方我都插入了图片。那段时间画了大量的插图,在我后来的文章和演讲中被反复使用。
在不断地斟酌与修改中,我对人机交互也有了更深的思考。此前「漂亮」的基于安全集的算法其实有着更深层次的数学逻辑。本质上这是一个带约束的最优控制问题,根据最优性原则,该最优控制问题的解可以被拆解成与约束无关和有关的两部分。我们设计的控制算法其实就是在原本无约束的解上加入了与约束有关的那部分解。
另外,人机交互的问题也不仅仅限制于安全问题,更重要的是在保证安全的情况下最大化效率。基于最优控制问题的解的可分解性,我们完全可以设计一种并行的控制器,一个控制器用来保证效率(与约束无关),一个控制器用来保证安全(与约束有关)。当然在后来的实践中,我们发现另外有一种拆分更有效。
虽然写作过程并不总是愉快地,但我却很享受这种「雕琢」思想的感觉。初中美术课上老师讲过一个故事:有人问米开朗基罗,怎样才能像他一样创造出美妙的雕塑作品?米开朗基罗说,并不是我创造了它,它就在那里,我只是把它外面的杂质去掉了。多年之后,这个故事突然在心头浮现,交织着当下的种种感触,变得妙不可言。
在我们提交了第一个 NSF 的同时,终于有一家汽车公司向我们伸出了橄榄枝。于是我开始把我的理论应用在自动驾驶上,做出了不少成果。
虽然后来这个 NSF 并未中标,但在第三年快结束时,一家大公司 A 突然联系我,说是读了我此前发表的关于人机交互的文章,非常感兴趣,希望能把我的方法用到实际中。我非常开心地告诉了导师,导师也很激动。很快地与公司代表见了面,公司方面非常快地推进了一切事宜。不过为了稳妥起见,导师把这件事情告诉了实验室的机器人赞助商——日本公司 B。出乎所有人的预料,B 公司认为 A 公司是竞争对手,强烈反对我们的合作,并要求人机协作成为 B 公司的项目。头一次接触这样的事情,我只剩下大写的懵。后来导师回绝了 A 公司,我加入了 B 公司的项目。导师把他写给 A 公司的邮件转给了我,说:你以后可能会遇到很多类似的事情,要学会得体地处理。
04
2015-2016:工业界合作
开始与自动驾驶及机器人公司合作后,渐渐接触了很多实际问题。我慢慢意识到,用新颖的办法去建模人机交互固然重要,可是最终还是要落脚在对机器人的行动的计算上。而算力是一个很大的限制,通常并不会为了一个简单的小机器人配备高性能的计算设备。因此,开发有效的底层算法就变得尤为重要。这个时候我已经开始理解,此前的安全集算法的高效性在于,对一个短期的规划问题做了凸化。那么为什么不能沿着这个思路对长期的规划问题做凸化呢?凸化的想法很简单,算法实现也不难,可是这样的凸化一定能帮助我们找到正确的解吗?要回答这个问题,就得研究存在性、收敛性——这不正是数学课上学的嘛!一肚子的定理终于有了用武之处。经过一段时间的推敲,我完成了我的第一篇应用数学期刊文章。虽然投稿到最终发表用了两年时间,但这个过程让我看到了把抽象数学思想运用到工程问题中的有效路径。
暑假的时候我去了一家中资自动驾驶公司的美国部门实习,成功地把类似的凸化的想法实现在了他们的路径规划器上。后来我又去了日本,把算法应用在了赞助商 B 公司的机械臂上,成功地让机械臂能够实时地在动态复杂环境中完成各项任务。
这一年的工业界合作对我产生了许多影响。首先是矫正了我的工作习惯。暑假去日本实习,惊讶于日本公司员工的生活:打铃起床,打铃吃饭,打铃上班,打铃加班,当然打铃也不下班……这莫不是把军训过成了日常?然而因为生活得规律和纯粹,一段时间后,我不但身体素质提升了,而且还在短时间做完了好多因拖延症而不断耽误的事情。回学校后,这样有规律的工作模式就也保留了下来。
与工业界的接触也让我开始思考研究模式。做研究这个过程,也是一个闭环系统,需要找到一条可持续发展的道路。在学术界的闭环是源源不断地写文章,然后申请源源不断的经费。如果要可持续发展,必须要让自己的研究对社会、对民生、乃至国民经济产生正向的影响。在这个闭环中,更需要考虑的是需求——真正的实际问题在哪里,而不是自娱自乐做一些缺乏现实意义的象牙塔研究。就好像,武侠小说里,习武的目的从来不只是武功招式本身,而是为着大义。但在这个过程中,也要避免短视,规避功利主义。一些实际问题通常都能找到看似有用的简单粗暴的解法,但细究下来,暴力解常常在实际运行中漏洞百出。就好像,为着虚名而练的花拳绣腿终究走不远。如何避免对实际问题的无视或短视,如何平衡基础研究和应用研究,是研究人员必修的课题。
因为在中资公司的实习,这一年我开始把目光聚焦在大洋彼岸的祖国。在美国的这几年,中国发生了巨变,国民经济快速发展,国际地位显著提升,中产阶级崛起,民族自信心暴涨。这已不是我离开前的中国。两耳不闻窗外事的我虽然对这变化却知之甚少,但也通过偶尔的几次回国旅行、微信上与朋友的闲聊、以及新留学生的状态感受到了不同。移动互联网的汹涌浪潮中,大量资本开始进入新兴高科技领域。自动驾驶、智能机器人领域,或更宽泛的人工智能领域,不乏来自中国的顶级玩家。网上流传着一张中关村小摊位的照片,摊位前的牌子上写着:深度神经网络,10 元一层。这样的变化让我欣喜,同时也为自己错过了这样的发展而感到遗憾。后来我找了很多资料,试图理解变化背后的逻辑。当然,从此以后我便再也没有将目光移开。
这一年,我拿到了数学硕士学位,一个本不在计划之中的学位。晕晕乎乎地上了许多数学课,一直觉得自己没有明白,没有吃透。后来才意识到,这些数学思想已经深刻地改变了我的思维方式,让我能够看到问题更抽象、更本质的那一面。如果说本科学的经济学让我在思考工程问题的时候有了绝妙的类比,那么现在学的数学则是让我走到了知识的高地,俯瞰之间,发现了很多不曾设想的新奇事物。同时,坚实的理论基础,和对实际问题的洞悉,更是助我拓宽了研究的广度和深度。
05
2016-2017:找工作找自己
在日本的时候,看到了不少名校教职的职位空缺,于是开始跃跃欲试。可是回到学校已经 10 月,匆匆忙忙地整理完材料,就赶着学期末的截止日期投了出去。整个教职申请流程,与五年前的研究生申请流程非常类似。但我对自己并不十分有信心,因为不止一次被说过期刊文章太少,影响力太低。不过,五年前同样没有人看好我的博士申请,五年后的今天,好运也许会再次降临吧?
17 年开学第一天,我收到了一个 TOP5 学校的面试邀请。好运这就要来了吗?然而整个过程高开低走。我后来陆续收到了不少面试邀请。到了不少学校演讲,给形形色色的人们讲我的研究我的愿景。可是一直到学期结束,都没有等来那看上去注定会来的 offer。
不过,失落的心情已经在等待中消耗殆尽。我迷失于对未来的选择中。摆在我面前的路径有很多,做博士后继续找教职、工作、创业、回国、或者干脆休假一段时间。与以往的选择不同,这一次,我能看到每一个选择可能的未来和背后的代价,这样的选择其实只关乎我想要怎样的未来。
有着「毕业即失业」压力的时候,非常希望靠锁定一份工作,把自己放进一个保险箱。而今,毕业(失业)已成定局,则是一个开始考虑自己的「宏大命题」的契机。我放弃了把自己放进保险箱的想法。也许,拥抱不确定,才是人生的精彩所在。从前害怕在漫长的岁月中流离,但在毕业的那一刻我却领悟到,岁月只是看上去漫长,一生也许只够完成一件事。从前以年月日为刻度的盘算,现在都要放到「一生」来考量。这些在读书期间都未曾被认真思考的现实,在毕业来临时被赤裸裸地摆在了面前。读书期间是被「制度化」了的,一切的发展都有前人留下的车辙轨迹,而一旦脱离这个制度,生命虚空却也广阔。
不过这一年不只有失落。申请教职的同时,我们修改了上一个没有中的 NSF 标书,再次提交了一个 NSF 标书。这一回成功中标。所以我又多了一项留在实验室做博士后的选择。但我最终选择了走出舒适区,换了一个地方做博士后。
从实验室离开的时候,我在抽屉里翻到了博士第一年加工的驱动器,第二年投的文章的所有修改版本,第三年的那一份 NSF 标书,第四年的各种会议的幻灯片。一点一滴,凝聚成青春里的这五年。五年过去了,我的英语还是有些蹩脚。但五年的时光,已经让我变得更笃定,更无畏,更专注。未来正来,翘首以待。