2018/12/07 15:14

邱陆陆作者

专访图灵人工智能研究院副院长徐葳：AI基础设施建设之路

一个普通的工作日清晨，北京下了很大的雨。尽管下午还要飞往美国进行学术访问，上午八点半，徐葳仍然准时出现在了位于清华 FIT 楼的办公室里。

在这里，他的身份除了清华交叉信息研究院的助理院长之外，还有刚刚成立不到半年的「图灵人工智能研究院」副院长。

由姚期智院士牵头创办的图灵人工智能研究院，并不是清华的一个新院系，而是一家注册在南京的公司。当然，这家公司和清华有千丝万缕的联系：它由清华交叉信息学院的教授们组建，为交叉信息学院的科研成果做转化服务，并且因为公司本身是清华团队的科研成果转化形成的公司，公司部分属于学校。姚院士也向清华大学郑重承诺，他在公司未来所有股权收益，都将捐赠给清华大学教育基金会。

「我们希望帮老师们走通一条从科研，到孵化，到对接投资，甚至反哺科研的道路。通过帮他们解决政策上的、时间上的、团队上的、资源投入上的任何顾虑，给他们一个自由宽松的科研环境，也让他们的研究真正落地。」

从第一步搭实验室，到最后一步拉电线

「学校对科研成果的转移转化一直是很支持的。」徐葳介绍道。

有着深厚科研积淀的清华，在 2015 年出台了明确的知识产权转化与分配相关规定：「科技成果转化所获现金收益或股权，学校享有 15%，原则上成果完成人所在院系和对完成、转化该项科技成果做出重要贡献的人员分别享有 15% 和 70%。」

但是即使学校对此持有赞成与支持的态度，给出了正向的激励，科研成果走出校门之后的转化之路，也仍然超乎想象的漫长。

「开公司和做科研非常不一样，有时候越是学术做得好的老师越不擅长开公司」，徐葳笑称，「很多 VC 找到我们院的老师，跟他说你这东西不错，我投资你开公司吧。但是你是个教授，所以你就好好做教授，把知识产权给我吧：你占 10%，我占 90% 怎么样？」。然而即使是这样听起来非常离谱的条件，很多老师仍然因为不了解或者没有其他好的转化途径而选择合作。「从做出科研成果到获得经济价值，尤其是获得值得的经济价值，还有很长的距离。所以我们觉得还是应该自己来做创业孵化指导，我们不希望自己的老师作出了研究成果却收不回应有的价值。」

抱着这样的想法，图灵研究院在今年 4 月正式成立，如今已经有十多个项目开始了孵化。不过如果对比传统孵化器的业务范畴，你会对图灵的服务覆盖长度与广度大跌眼镜：图灵的所谓「孵化」，可以从「一位老师产生了一个科研想法」开始，到「调试和运维一个 IoT 摄像头」为止，跨过一个项目完整的生命周期和产业链上下游。

在项目最早期，图灵对孵化项目进行「科研支持」。

第一批就位的图灵全职员工包括 HR 与行政助理，紧接着公司还会招聘一批专职研发人员：「有一些想法，不是最最前沿的科研，但是是一个有趣的、可能会有用的课题。这样的探索性项目可能不适合清华的博士生做毕业课题，而且我们全院一共就 23 位老师，每年最多招收二十多位博士，也没有大量人手去做。同时一个课题没有商业计划书，普通投资人也没法做风险收益评估，也没法以普通投资行为支持它。」在徐葳看来，这就是「科研支持」要做的事：「如果我们判断，这个课题然很难、需要探索，但是并不是做不出来，而且做出来会很有用，那我们就会以支持科研的心态支持它：如果之后有收益那我们共同分享，如果最后没有收益只有科研成果，我们也一起承担风险。」

图灵可以为团队提供科研经费、提供人事管理支持，甚至提供研究场所：「我们孵化的一个公司是做 AI 新药研发的。用 AI 技术判断哪些分子和靶点有作用。AI 筛药的速度那么快，当然需要专门的实验室批量化地去做实验来验证，我们在南京帮他做了一个实验室，700 多平米，还帮他招了一支做实验的团队。」

而当项目从科研阶段走到落地阶段，图灵希望给予的是产业链模块化的支持和上下游的模块化服务，这部分支持，被图灵称作「公共技术服务」。

「清华建筑系的毕业生未必盖得出房子，因为他不会砌砖拉电线。砌砖拉电线是脏活累活，但一定要有人干。建筑落地是这样，AI 落地也是这样。不一样的是建筑行业存在大量技术工人，而 AI 行业没有。」因此图灵格外关注 AI 系统想要「生存」所必须的上下游支持。

公共技术服务包括可以提供分布式计算系统的平台，而这是徐葳自己的专长，「分布式计算这里我们没有什么特别好的资源能整合进来，自己又擅长开发这些，就先开发了，再给其他人用」。

当然，负责「砌墙拉电线」的公司也是公共服务里重要的一环：「这个我们还真不会，他们可以接网线，做 IoT 设备的选型、部署、运维，调试每一个摄像头，这都是 AI 落地的必要环节」。

某种程度上，这相当于谷歌的一个基础设施部门。「谷歌的系统平台有超过一千人在开发和维护。这是谷歌做 AI 的算法工程师『炼丹』的基础。如果没有基础设施团队，一个算法工程师想要靠自己把算法部署在两台机器上都很难，更别说一千台了。人类第一次展示很多深度学习用例都在谷歌。并不是这些算法有多么艰深，以至于普通工程师完成不了，而是从 TensorFlow 到 TPU 等大机群的全面系统支持，让谷歌的工程师能首先完成这些算法的部署。」

图灵的项目也大多沿袭着这一「做系统」的思路。比如做 AI 病理图像诊断的透彻影像，成立后的第一件事是为病理医生量身定制了一套非常完备的标注系统：能用 iPad 和 Apple Pencil 标注，还能在标注完成后利用算法控制标注质量。这套标注系统的组件也是之后诊断系统最核心的组成部分。同时从第一天部署开始，透彻就在做分布式系统的机群架构，为未来一年可能需要的算力而未雨绸缪。

「做算法的人总是希望有清洗好的标注好的数据，能把问题限定在算法。我们是做系统的人，我们做的就是弄个铁盒子把七七八八的零件装在一起，和『砌砖拉电线』很像。」

除了产业链上下游的服务之外，徐葳所设想的公共技术服务还包括模块化的算法，语音识别、人脸识别，这些 AI 最先「攻克」的，最先成为基础能力的模块，以及开放的、用于优化和可靠使用这些模块的机器学习系统。有了这些公共技术加持，企业不用端到端地开发每一个轮子，而是拿着最优的轮子去完成产品，对企业自身的创新能力也是一种提高。「AI 一定不是拿着一个单独的技术出去当产品卖，而是很多零件组合起来的。这时候每个公司都重做全部零件，就是资源浪费了。我希望我们这儿什么都有，供应商能提供各种技术的模块，然后企业把模块聚集起来，做成好的产品。」

钉子，锤子与石头

但是什么才是好的产品？

「好产品不是甲方提出来的，因为甲方提出来想要的东西一定是你实现不了的。」在徐葳看来，不了解技术的人，对技术的想象常常过于科幻或者过于理想化。「你去问一个普通公司的老板，你能不能用上 AI？他说能啊！我希望有一个自动客服，客户来了就陪他聊天，把前台都替换掉。可是 AI 公司的前台都还坐着真人呢。」

但研究人员研发出了好算法也不等于做出了好产品。「人家总说，我们做技术的人就是举着一个锤子，看哪儿都像钉子，都要去砸一砸。但问题是，但凡是迫切要砸进去的钉子，不等我们造出锤子，人家早就捡了块石头砸进去了。钉子长时间存在却没被砸进去，说明它不需要砸。」

因此徐葳觉得，这就是需要技术专家从学校里走出去，落地看看外界的真实需求的时候了。

「这轮 AI 能不能解决所有的问题？肯定不能，差远了。」现有的 AI 算法能够解决得好的问题只有屈指可数的几个，如果想要解决更多的问题，不能只靠对现有算法细枝末节的改进，也不能依赖工程上「炼丹技术」的提升，而是需要真正的突破，这种突破何时发生？没有人可以预期。

所以如今的现实是，「技术都是这些技术，准确程度就是这种准确程度。但是市场到底需要什么？是更快？更准？还是其他的某个需求？」人脸识别算法准不准？很准，但是做成门禁、代替了一把钥匙，或者一个检票员，带来的本质好处有多大？肺结节识别算法准不准？也很准，但是医生其实一眼就可以识别出结节，顺带着识别出其他数百种可能的异常。「真实的需求可能和研究人员想象中的应用完全不一样。」

AI 时代什么最宝贵：人才！

成立至今，图灵已经有十二、三个在商谈中的项目了，其中大部分来自交叉信息学院老师们的科研成果转化或者科研合作项目，也有部分来自校友的对接。

与其说图灵在选择项目，不如说图灵在选择人。「拿制药行业做对比，药物研发人员把专利交给后期制药的的团队之后就可以撤出了，而人工智能专利往往具有欺骗性：一个是你拿了专利也不知道有什么用，另外还可以有十几种方法可以绕过这个专利做同样的事儿。」因此，看好一个项目，意味着「你只能把这个团队招了」。

而图灵青睐的团队就非常体现交叉信息学院的特色了：都是有着真正深入的交叉背景的人。

生物背景的人会写点程序的很多，但是懂计算机科学的很少，反过来，计算机背景的人真正理解生物学需求的人就更少了。「生物信息学来源于以为自己有数据处理需求的、生物背景的人，他们做甲方，雇了一些不懂生物的做计算机的人来处理，最后经常发现想象中的解决方案未必适合这个问题。」

「图灵签的 AI 新药研发的公司，是第一个纯计算机背景的人领导的药物研发公司。」这位教授在读计算机博士期间跟着同样履历的导师从计算机转向了生物，所以他会做实验、知道生物学的研究方法，同时也有非常扎实的计算机理论知识。

除此之外，还有计算机科学家与经济学家一起试图从政策制定者和城市规划者的高度探讨智慧城市问题、和监狱管理者一起研究如何根据现有的信息化水平使用司法数据做出犯人的画像和风险评估、和医生一起从医疗影像标注问题的简单化与日常化开始解决影像分析问题。

而随着这些团队一起成长的是图灵为创业提供支持的环境。

「有了小的成功和可持续发展的预期，很多在海外大公司的中国人也就回来了，等他们回来之后，就又可以进行更大的尝试了。而这一切，总要从一个基础开始。」

产业徐葳图灵人工智能研究院

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度，其目的是进行资源的优化。常见的规划方法包括经典规划（Classical Planning）、分层任务网络（HTN）和 logistics 规划。

来源：机器之心

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在维空间内，有个分量的一种量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换。称为该张量的秩或阶（与矩阵的秩和阶均无关系）。在数学里，张量是一种几何实体，或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达，记作标量的数组，但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中，表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了，它们都是二阶张量，对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源：维基百科

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

分布式计算技术技术

在计算机科学中，分布式计算，又译为分散式運算。这个研究领域，主要研究分布式系统如何进行计算。分布式系统是一组电脑，通过网络相互链接传递消息与通信后并协调它们的行为而形成的系统。组件之间彼此进行交互以实现一个共同的目标。

来源：维基百科