智能语音交互是科技历史上为数不多的一次重大的人机交互界面迭代,之前还有两次:鼠标键盘,以及触屏交互。它提供了一种用户即使在双手被束缚的情况下依然可以进行的交流手段;同时也为人工智能技术的落地提供了真实的应用场景。
这种新颖的交互方式在过去几年里在中国掀起了一场科技变革,尤其到了 2017 年,以 BAT 领衔的中国市值最高的几大科技公司都争先入局,或宣布由人工智能加持的语音交互系统,或推出能实现人机对话的智能音箱。总之,目前的中国已经鲜有科技公司不涉猎智能语音交互了。
去年这一轮比拼中,由百度度秘事业部总经理景鲲所主持的 DuerOS 开放平台最为耀眼。DuerOS,中文即是对话式 AI 操作系统。度秘原本在百度扮演的是一个人工智能秘书服务的角色,但在语音交互的这一波浪潮里,被百度迅速地推往第一线,成为和百度另一大自动驾驶开放平台 Apollo(阿波罗)等并行重要的业务线。
DuerOS 在去年 CES 上正式亮相。在接下来的短短十二个月里,DuerOS 经历了从操作系统升级为开放平台的变化;两代版本的重大更新;赋能 130 多家合作伙伴,提供 20 多种硬件解决方案。截止到 2018 年 1 月,DuerOS 激活设备量已经超过 5000 万,月活跃设备量超过了 1000 万。百度也给 DuerOS 平台贴上了很多标签,包括「人工智能时代的安卓」、「生态化」、「软硬结合」。
然而,我们还无法从这些标签上看清楚 DuerOS 坚持乃至于执着做开放平台的用意,到底是出于怎样的考量?对未来格局的判断又是什么样的?同时必须要承认的是,中国智能语音交互市场虽潜力巨大但目前体量还很小,推动中国语音交互市场的发展依然任重道远。
百度是如何看待这些问题的?景鲲给出了他的答案。
以下是景鲲的专访实录(机器之能做了不改变内容的编辑):
开放平台是一个生态,最大的挑战是你要理解这个生态里每个角色的诉求。
去年 2 月度秘升级为度秘事业部之前,当时度秘有多少人?当时有没有一些心理上的变化?
当时一百多人,现在好几百人了。在度秘升级成事业部之后,我当然觉得身上担子更重。原来我们属于大公司大业务下面的一个创新业务。如今,公司把我们提高到这么重要的位置,公司支持比较大,同时团队士气特别高涨,因此大家工作也都比较辛苦,都非常拼。
公司内部是从什么时候决定要把 DuerOS 从一个系统打造成开放平台?
这个倒不是某个时候的决定,更多是公司与团队对度秘业务整体发展规划、行业发展趋势和用户诉求几个方面综合考虑想法的逐步推进。
从开放的角度来讲,前年的时候我们就把一些对话式 AI 的能力放到硬件上去。大规模付诸行动是在 16 年的 11 月份,那个时候第一个合作伙伴是国安广视,它是一家在电视机顶盒领域很有名的公司,也是好几个大的卫视的股东。那时起,我们开始系统化地把我们的努力付诸到硬件上去。
第二个重要的合作是去年 CES 和小鱼在家的新产品发布,也是我们第一次对外公布 DuerOS 这样的一个平台。从这两个合作之后,我们再回到国内后发现这是一个巨大的市场,用户有很多的痛点,合作伙伴也有很多痛点,同时百度有很多优势,DuerOS 是一个很好的、能够满足多方需求的一个平台。
从一个系统变成一个开放平台,你觉得最大的挑战在哪里?
我个人觉得,开放平台是一个生态,生态里往往有许多种角色,比如说:有硬件合作伙伴、芯片方面的角色、系统集成方的方案商、开发者、内容方面,还有我们自己的角色。
因此在这里面,我认为最大的挑战是你要理解这个生态里每个角色的诉求,包括他们擅长的点,他们希望从合作里面得到什么,这个是做平台的最大的一个挑战。
原来做一款产品很容易:了解你自己的能力+了解用户,将这两个结合在一起做一个 App 就能做出比较好的效果。但是,真正做一个生态,尤其是在 AI 时代里,许多(案例)是软硬结合的。AI 时代的企业所需要的能力,全面性要求特别高,需要懂硬件、软件、用户、产品、商业,甚至还要和之后的内容服务商合作。所以整个产业的复杂度是巨大的。
你在定义 DuerOS 的时候,经常将它定义为 AI 时代的安卓,那么如何理解这两者之间的联系,在 AI 时代的开放平台是否也具备了一些(移动时代所没有的)特质?
我认为虽然每个时代的开放平台都有一些不一样的地方,但是同时也有一些核心本质是不变的。
本质不变的是如果一个开放平台要真正成功,它必须有自己的生态,而不是依附于其他人的生态。没有生态,再怎么贴标签也不是真正的开放平台系统。
你可以看到在移动时代,两个很成功的操作系统:安卓和 iOS。当然,Windows Phone 我们也把它定义成操作系统,但是他没有自己的生态。生态没成功,系统就没有成功。从这个角度来讲,为什么我们希望定义成 AI 时代的安卓?因为在移动时代,安卓是比较成功的,它基本上支撑了中国大量企业的创新。没有安卓的底层支撑,许多企业会耗费巨大的人力财力,可能也不一定能进步到今天这样的位置。因此我觉得安卓在中国真的是发挥了非常非常关键的一个平台作用。
我们也希望在这个时代,在智能语音交互的时代,DuerOS 也能成为对整个社会、整个产业的这样一个支撑作用,这是我们心里更大的期望。我们把一些基础做好,然后让很多的合作公司和合作伙伴,不用重复建设基础工作,更多时间花在产品、用户和应用场景上,进而有机会引领世界的创新,这个是我们想做成 AI 时代 Android 的原因,也是我们为什么做这个比喻。
在 AI 的这场大战里,AI 能力体现在全栈上。但是我后来发现说一个公司真的很难把全栈都理解并做好。
你如何评价现阶段的语音交互系统?DuerOS 是如何将交互能力体现在实际的应用上?
说实话,我觉得用户体验都不到位,包括现在(Amazon)Echo 在做的,主要就是一问一答,这只是在进入新型人机交互的初期,为了控制用户预期才做了这样的交互,并不是用户想要的一个自然的交互。
我认为,还有很多产品创新值得去推动,去探索边界。不只是百度,产学研都是要做。所以我们在百度世界大会上宣布了人工智能交互设计院,它的使命就是要不断地探索这个边界,是在技术可以允许的情况下,怎么能让一个设备交互的更好。
我们最近做了很多尝试,也有很多收获。比如,过去的一问一答模式里,每天早晨你问一个天气它就返回答案。我们最近做了一些新的尝试,智能音箱回复了天气信息之后,系统会接着问用户是不是想听机器之心最新的更新,要不要听一下?听,确定,新的内容就出来了。这样就自然引导用户获得更多优质的内容。这就是更自然地交互,一次唤醒,同时又把新的对用户有帮助的内容要推进,这样整个人机交互的方式就有创新。
我们希望和一些合作伙伴联手能够把产品交互的边界不断地往前探索,让每一个用户觉得这些拥有智能语音能力的设备是好用的,是自然的。
百度 DuerOS 平台一直在强调降低门槛,你认为降低门槛的意义是什么?
在 AI 的这场大战里,AI 能力体现在全栈上。但是我后来发现说一个公司真的很难把全栈都理解并做好。这里不仅需要很多行业的知识,不仅是硬件的水很深,需要很长时间的积累,而且从云端能力储备上,也需要很长时间的储备。我们发现,大家都想软硬结合,这种门槛挺高的,对百度都已经算高了,我觉得对很多公司也会很高。所以降低门槛很重要。
回溯最初的安卓时代,那时候也有一些其他的手机操作系统。当时如果开发一个手机,每个厂商的投入是非常高的。但是安卓的系统出来之后就不一样。每个公司研发手机的代价可能以指数往下降,整个迭代速度变得特别快。
有的手机公司一年开几十场发布会,发几十个手机,这样的创新速度太快了,而创新速度快的原因,根本还是因为门槛降得很低,品牌就会把很多精力放在用户体验和品牌效应上。所以我们也认为,一定要把语音交互的技术门槛需要降下来,这样才能让更多的合作伙伴受益,进而关注点更加放在用户和使用场景上。
能不能举一些百度切实地降低门槛的例子?
比如,去年 7 月 5 号是百度第一次人工智能开发者大会,我们公布了智能设备开放平台,并发布了几个开发套件:个人开发套件、轻量版、标准版本开发套件。包括你看我们那个灰色的音箱,从来没有开售,那个是我们的参考设计。参考设计里面所有的东西,包括刚才说的这些模组和套件,都是告诉我们的合作伙伴怎么去把这些能力放到他们的产品里面,怎么能迅速创造一个智能语音设备。我们现在有一些个人开发者,利用我们现在的套件直接可以开发出一套自己的智能语音设备,这样的门槛已经很低了。
打造一款硬件,尤其是很创新的硬件,不是复制别人的硬件,基本上至少 12 到 18 个月,这是至少的。渡鸦从加入百度,从构想这个硬件到做这个硬件,这前后只花了基本上几个月的时间。
去年百度收购了渡鸦和 Kitt.ai,当一个新的创业公司加入到百度之后,有没有磨合上的问题,如何去解决这些问题?他们的技术优势和百度自身的系统在做结合的时候,有没有一些难点是需要去克服的?
肯定有磨合的问题。即使是同一个公司两个团队之间合作也存在磨合的问题,那被收购公司和收购公司之间肯定也存在这样的问题。
但是,百度和渡鸦的合作真的是磨合的非常好。为什么?从结果来看,打造一款硬件,尤其是很创新的硬件,不是复制别人的硬件,基本上至少 12 到 18 个月,这是至少的。渡鸦从加入百度,从构想这个硬件到做这个硬件,这前后只花了基本上几个月的时间,这个产品就已经做到量产。而且他不只做了全新的硬件,并且还搭载了 DuerOS 最新的 2.0 的系统,相当于软件为他配合定制了整个设计。
其实软硬之间需要很强的磨合,渡鸦的团队也是相对比较独立的运营。创始人吕骋 Jesse 也有很多创新的产品的思路,我们更多从平台角度来对他进行很多的支持。渡鸦的创始人有自己的特色,DuerOS 其他的合作伙伴的创始人也都有自己的特色和个性,这就需要我们成为一种比较包容的平台,我们希望支持他们的产品有个性,并且能够打中相应的用户人群。
这种收购还会继续吗?在度秘事业部里,投资并购和业务发展的关系是什么样的?
我觉得投资并购是业务发展的一种手段,需要结合一些场景下看是不是要利用这类手段,合适的就会继续做。我们也没有一个 target,例如今年要特意要做到什么样,它就是一种手段。无论是 Kitt.ai 还是渡鸦的时候,都是帮百度 DuerOS 平台迅速的成熟,迅速的能够支持我们的更多的合作伙伴的一种手段。Kitt 相当于是从技术角度来讲让平台更丰富和成熟。包括渡鸦,从软硬结合标杆的角度来讲让平台更成熟,且引领行业的发展,推动平台再往前走。
在人工智能时代,中国是在某一些领域甚至有机会再赶超美国。所以我觉得这无论是对百度还是中国的产业都是一个很好机会。我们其实很有幸站在这样一个世界的舞台上。
去年 DuesOS 收获了许多合作伙伴,其中你觉得令你印象最深刻的、最典型的合作案例是哪些?
第一个比较有代表性的就是国安广视。
国安广视是一个非常好的合作伙伴,我们的合作一直特别融洽,它的母公司是中信国安,是江苏卫视的第二大股东,河北卫视的第二大股东,也参与了很多地方卫视,是一个又有广电背景、又有 OTT 的这种互联网基因的一家企业。
我们今天看电视,可能年轻人看的不是很多,但用户数量还是巨大的,每年中国电视销售量大概 4000-5000 多万,智能电视盒子也是几千万的销售量。现在人在看电视的过程中,和电视交互特别难,这限制了用户在电视上内容的获取。国安广视合作有很多行业的知识,他们也知道用户的痛点。例如在家里看电视的用户很多是老人和小孩。他们在使用电视的时候,为什么不用电视去获取更多信息服务?是因为交互太难。所以国安广视迫切的希望能找到一种更简单的交互方式,通过整个智能语音交互可以让用户体验更上一层楼,我们的合作也就一拍即合。
传统产业在整个升级的过程中,需要很多的 AI 技术支撑,这些 AI 技术是他们原来不擅长的。同时这些技术很多时候又不是单一的技术,不是一个仅仅语音识别的技术,它是一个全面语音识别、语义理解、信息服务加在一块的综合性解决方案。传统产业有落地场景,也有强需求。AI 时代的落地就是找场景,这场景有痛点,有需求,再叠加 AI 能力,可能就会让整个 AI 爆发。在当时,这次合作对我们而言是很重要的一个信号:和传统产业结合,和软硬件系统结合,赋能更多的硬件会是很大的一个机会。
第二个印象深刻的就是和小鱼在家的合作。小鱼在家是一家创新型的科技创业公司,他们的产品口碑很好,特别能满足一些用户的刚需。比如当你结婚之后家里有老人和小朋友,与他们的家庭视频通讯就是一个很刚性的需求。无论是 PC 时代还是移动时代,通讯一直是人类很重要的一个需求。但是,我觉得家和车这两个场景的通讯还没有完全解决好。小鱼在家从家庭的通讯角度出发,再叠加上 AI 的能力,是能够找到突破口的。
同时,它又是引领世界的,你可以看到说它的产品大概在两年前就已经发布了,甚至三年前。现在我们来看,它这种类型的产品,国外也有一些,比如说 Echo Show,Echo Spot。今天我看新闻说 Google 又发布了三款带屏的音箱合作伙伴,但是如果我们退一步讲,退到三年前,没人想到说为什么设备上需要做这么多传感器,做这么多摄像头摄像头、麦克风、屏幕。从今天来看,这款产品就是比较合适的。说不定我再过两天看,这个就是未来的产品形态。所以它也给我们很多的启发。
通过 AI 能力的赋能我们可以做很多引领世界的创新,DuerOS 平台不止可以在 AI 时代做中国领先的一个品牌,也可以做世界的领先的开放平台。这就是为什么在 CES,我们第一次搭建一个这样大的展台,同时也把很多合作伙伴的产品拿来,是让世界看到说,基于我们的能力我们能打造出世界级别的产品,让世界了解中国在 AI 时代的创新速度,是和美国并驾齐驱的。
在人工智能时代,中国是在某些领域甚至有机会再赶超美国。所以我觉得这无论是对百度还是对中国的产业都是一个很好机会,我们其实很有幸站在这样一个世界的舞台上。
在挑选合作伙伴的问题上,有没有自己的一些标准?
第一个从安卓的角度来讲,安卓不挑合作伙伴且开放给每个人使用,我们也是。无论合作伙伴是大是小,甚至是个人开发者,我们都对他们开放。像我们最近跟个人开发者都接触很多,很多新的创意都是从个人开发者手上诞生,他们会有很多特别超前的想法。进而这些从底至上的创新会慢慢被企业接受,创新都是有一种自下而上的驱动力。所以从我们的角度来讲,服务各种各样的合作伙伴,都会给我们平台带来不同的信号,带来不同的收获。针对个人开发者,我们去年去了几次深圳、北京、成都办了几次开发者大会,有很多个人开发者在里面给我们很多新的一些输入。
从我们平台来讲,我们会扶持很多个人开发者,中小企业到大型企业,支持他们去开发新的产品。有些品类产品是属于定义性产品,需要定义颠覆式优秀产品交互,然后才能够推动这个行业的往前走。另外还有些品类的产品,不只要求定义,还要求必须要有量。只有又叫好又叫座的时候才能推动整个产业往前走。所以在这个时候,我们也会相对投入更大的力量去推动这种类型产品,像 Echo 为什么给美国市场带来这么大的影响,也是因为他又叫好又叫座。
DuerOS 从去年的下半年,尤其在年末,高频地发布了有关战略合作的消息,包括和高通骁龙以及华为的合作。DuerOS 在选择这样的战略合作的时候,会优先选择考虑什么样的合作伙伴?
如果想改变用户对语音的交互的认知,一种是不停的营销教育市场,告诉用户这种产品的好处;一种是潜移默化地让用户知道产品里都有已经具备更强的 AI 能力。所以与高通这样的合作,是我们看到了产业链的上游的机会。产业链上游就是芯片,芯片可以发挥极大的的作用,而同时芯片也都在找新的增长点「AI 芯片」。AI 芯片目前应用有两个主要方向,一个方向是视觉,一个方向是语音。如果未来所有芯片出场是都默认具备了语音对话能力,那么用户总有一个机会能和智能设备对话。智能设备越多,将来培养用户使用习惯的速度就越快。这是为什么我们希望和高通绑在一起来做这样的事情。
我觉得目前研究机构投入的热情不够的一个重要原因是因为数据不够。
10 月份的时候机器之能在硅谷参加了 DuerOS 普罗米修斯计划的发布会,能讲讲这个计划当时产生的原因,以及对整个平台开放的意义是什么?
我认为智能语音交互这个市场需要大家的教育。尤其看在中国科技市场发展的历史,很多产品都是一窝蜂地火起来。如果没有快的,滴滴的成功不会像今天这么快,可能还得需要两三年时间。因为当时补贴大战很大程度刺激了用户接受这种新服务其实我觉得智能语音交互也需要更多的市场教育。所以我们也一直在想还有什么方法能够帮助教育这个市场,同时也让 DuerOS 持续引领这个创新。
从产业角度推动用户认知的提升,我们已经在做并保持领先。同时我们觉得从学术和研究角度也是同样重要的教育市场的切入口。我们在智能语音对话方面需要更多专业人才,需要更多的研究机构,我们要让研究机构有更多的人更有热情地投入到这个产业。
我觉得目前研究机构投入的热情不够的一个重要原因是因为数据不够。为什么做图像识别大家更容易参与?数据集在那儿,大家都愿意参与。但是智能语音交互的感觉就是一些巨头在玩儿,很多数据都是封闭的。之前中国的语音厂商也是,什么也不给。但是我觉得这个时候就不对,应该更开放。普罗米修斯就是希望能通过我们的努力,我们去录制更多的语料,能开放给学术界去推动学术界参与到进来。同时学术界也能培养更多的学生,将来为整个产业贡献更多的人才。
不只是普罗米修斯,在同期我们还宣布了百度人工智能交互设计院,那是从交互的前沿去探索。我不希望说只是做硬件的创新,我觉得从软件角度上交互层面上也有很多需要有很多创新。我不希望大家在交互上停留在亚马逊定义的交互就是最好的交互。我觉得远远不是,在语音交互上来讲,现在所有人大家都处在起跑线上,真正好的自然交互应该像我们人类平时沟通一样自然。我觉得从这个角度来讲,人工智能交互的创新也需要有特别的研究机构来做,谁来做?百度推动来做,做人工智能交互设计院。
之前我们人工智能交互设计院发布了一个报告,关于智能音箱什么样的反馈速度是最好的?用户跟音箱交互多快是好的?原来我们做搜索引擎的时候,会觉得越快越好,最好是响应速度快的不眨眼。搜索是一个基于数据统计来迭代的一个产品,唯一一个能提升全面指标的就是速度。只要速度快了,用户也多,点击也涨,PV 也涨,什么都涨。许多人会想当然,觉得语音交互这样产品也应该越快越好。后来经过我们的调研,不是这样的,这样的语音交互设备的时候,如果回复太快反而用户会觉得抢话。我们人类说话是需要一个思考的时间,比如说像我们的交互,可能都有几百毫秒的延时,这是我们舒服的。如果返回太快了反而不舒服,所以我们希望研究在这个时候多快是好。
还有一点,比如智能音箱返回速度如果控制在一秒钟,我需要投入 10 个人力。而做到 800 毫秒,我可能投入 50 个人力,因为永远最后的一公里是最难走的。但是最后的一公里的提升究竟用户有多大的感知,这不知道,这就需要衡量。有可能投入 50 个人,用户感知很弱。所以我觉得这些都需要有些人去探索这个产业的前沿,我们也愿意花时间,我不觉得其他公司有足够的想象力和领先程度去做这样事情。
你认为在语音交互在什么阶段会出现一个垄断性的行业领导者或者系统?
我还觉得还早着呢,因为现在还属于一个市场的早期和教育期。
DuerOS 升级非常快。
DuerOS 3.0 我们已经构想的差不多了。
3.0 什么时候会亮相?
今年百度的开发者大会吧。我们已经规划好了。
版本快速迭代背后的驱动力是什么?
我觉得两方面,一种方面就是自己给自己压力。(笑)大家工作都挺努力的,就是真的希望说这个平台迅速的往前走,能够从体验持续地提升。
第二个角度,我们合作伙伴的需求特别多。当你是一个平台之后,你的前进也是合作伙伴是推着你往前走,每天合作伙伴都会提出要求:我要上这个功能,我这产品要这个时候发,我的硬件有周期的,要赶双 11,你要搭配着往前走,他们都推着我们走。
DuerOS 3.0,有什么是让我们的读者期待的?
会更加强大,更加丰富,更多的就不能说了。
从百度优势来讲,理解力是我们的特色,在理解和处理信息的能力更强。同时链接更广泛且优质的信息内容也是百度一直以来的优势。
同样是开放平台给第三方,百度和谷歌、亚马逊的做法你觉得有什么样的区别?
我觉得有时候谷歌和亚马逊在跟合作伙伴竞争,不完全是一个平台的做法。如果看安卓平台初期,一开始不是谷歌自己做手机,是跟 HTC 先合作做这一款,又跟三星做了很多合作手机。那如果现在看谷歌和亚马逊,他们每次音箱的降价(尤其在黑色星期五),都对其他的音箱合作伙伴是致命的打击,别人都没有办法再进入这个市场。所以你这种又做平台,又做跟合作伙伴去竞争,这会让很多合作伙伴心里很忐忑。
如果我是合作伙伴,心里会打一个问号。至少是现在已经看到音箱每次黑色星期五音箱的降价,对其他的音箱都是以致命的打击。现在的美国市场就只有他们了,别人都不玩儿了。我觉得从这个角度来讲百度的策略是不一样的。
去年国内也有很多不同背景的公司在推进自己的开放平台,你认为短期内这样的态势会带来什么样的价值?
在行业初期肯定会有很多人跟进,这是挺好的一件事情,他们不跟进,反而我会比较担心,人家会说这么大的市场怎么就你一个人看到了,别人没看到。
长期来讲,最终平台肯定都会收敛,比如手机最多也就是两个平台现在。
智能语音交互无论是语音助手还是音箱也好,会拥有很多功能,解决很多问题,百度在解决这些问题上会不会有侧重?比如小米音箱和阿里的天猫精灵的定位可能偏向物联网和智能家居控制,百度会在哪些方面比较侧重?
我们也接入了很多智能家居平台和产品,拥有像飞利浦,Broadlink,Life Smart,涂鸦智能等知名的智能家居合作伙伴。
从我们的音箱来讲,综合能力是很强。从百度优势来讲,理解力是我们的特色。基于百度大脑强大的能力和知识图谱数据,DuerOS 在理解和处理信息方面的能力更强。同时我们的信息与服务方面有很深厚的储备,搜索一直就在链接非常广的内容,这些都是我们的优势。
我当时对阶段性的成功做了两个比喻,一个成功的标志是我希望青岛的二叔开始用语音跟他家里的设备对话;第二个成功的标志,我希望北京在街边上开始出现关于 DuerOS平台开发技能(Skill)的培训班。
在智能语音交互当中,你觉得最重要的三个应用场景是什么?
说大一点就是,家、车和在路上的场景,都是双手被束缚或者占用的场景。
缩小一点呢?
例如电视,本来的交互很费劲,有语音之后就变得很近。比如像智能玩具,用语言交互对小朋友是最自然的交互了。智能音箱就不用说了,已经逐渐变得普及。车被互联网化是一个很重要的趋势,语音交互也是车里面很重要的一个刚需。我其实能看到它的应用场景还挺广的,甚至包括手机。你可以看到今天的手机如果不打人工智能标签都是有点过时了。人工智能标签的手机中图像和声音相关的计算能力更强了,而我们也观察到手机上的语音交互也在变得越来越频繁,用户接受度在逐渐提升中。
如何评价中国现在的智能语音交互市场?
我觉得还属于初期。有的时候问一问一个不做 IT 这一行业的,他都不知道什么是智能音箱,不知道解决什么样的痛点。
想象一下什么时候 DuerOS 是成功的,我对阶段性的成功做了两个比喻,一个成功的标志是我希望青岛的二叔开始用语音跟他家里的设备对话,这是我觉得一个初期成功的标志。细致的解释就是,我青岛的二叔是不懂 IT 的,他作为一个在二线城市不懂 IT 的用户开始用语音开始跟他家里的设备进行交互,说明这类产品的影响力已经覆盖到足够大了。这是某种成功的标志。
第二个成功的标志,我希望北京在街边上开始出现关于 DuerOS 平台开发技能(Skill)的培训班。这说明系统化的有人开始学习这种对话式交互类型的技能开发,侧面代表了智能语音交互生态的初期成功。这两个对我来讲是一个小梦想,希望在某个阶段就能实现。
Apollo 已经开始和 Udacity 联合推出课程了,DuerOS 有这方面的想法吗?
肯定也有。其实我们已经在开类似的这样的(培训),我们的唤醒之旅已经走过深圳、北京和成都。每次我们组织这样的课程都是爆满的,虽然与会者我们都会事先邀请,但是经常 200 人的场地来了 400 人,场场爆满。
但是我当然希望未来这些培训班是自发的,不是我们组织的。我也希望其他人看到这样的机会能自发组织这样的活动。
去年焦虑的是怕一年之后只有自己在玩,这个新机会需要非常大的资源投入来教育市场。不止需要百度,最好也有其他公司一起参与一起教育市场。现在的焦虑在于说怎么能够把这个市场教育时间缩短,让用户更快接受这种新兴交互体验。
DuerOS 过去一年的发展是非常迅猛的,你有总结过这种阶段性成绩的原因吗?
我觉得就是把自己的定位想清楚,这个很重要。你究竟是做一款产品,还是你去做一个平台,你做封闭还是做开放,这个对很多工作会有巨大的影响,同时对路径上也会有很大的影响。DuerOS 第一天就希望做一个开放的平台,所以你可以看到我们整个走的路都是一个很开放的路,我们推出 First party 硬件,也是在我们基本上开放的基础之上,我们没有选择和合作伙伴竞争。由于这样的平台设定也就决定了我很多的步伐都是按照这个设定来做的,很多今天的成绩也是由于当时做了这样的决定。
去年一年最让你焦虑的是什么?
焦虑的是怕一年之后只有自己在玩,这是我特别特别焦虑的。最害怕的是你被冷落,你做一个事情只有你自己做,因为需要巨大的资源来教育市场。那种孤独是,你自己心里都会打鼓,自己是不是做早,是不是时间点不对。最好有更多的公司一起参与进来。
现在反过来看呢?
现在感觉踩着点对啊!现在的焦虑在于说怎么能够把这个市场教育时间缩短,让用户更快接受这种新型交互体验,这样的新型智能设备。
你希望这个教育市场完成的时间点在哪儿?
我希望 18 年要把这个工作做好。我希望在 2018 年送给我青岛二叔一个音箱,他能天天用,而且觉得这个东西好,并且他愿意再买一个送给其他人(笑)。
个人是更偏向技术型的还是产品型的?
我加入微软的时候是程序员。我在微软做了八年,都是研发这条线。到百度的第一天开始,我就开始做产品方面的工作。我觉得要把一个技术利用好的话,首先应该要把产品想对了。
陆奇说你是最好的产品经理之一,你认为一个优秀的产品经理是什么样的?
首先不敢当。不过我确实非常享受做产品的过程。
从我自己做产品的角度来讲,我会一直保持如履薄冰的感觉,我自己在公司内部 IM 软件的个人签名叫创造性张力。这个概念是来自一本书里,它形容了美好梦想和残酷现实之间的张力。这个张力会每天绷着你往前走,让你不舒服,但同时这种张力也会迫使你产生很多意想不到的创新能量。所以有时候都会有一种极度的焦虑和自我压力,迫使自己不断地审视我们自己的产品,是不是还有哪些做的不到位的,哪里可以做的更好。这种张力下会有很多好的产品想法产生。
这种焦虑是你个人的因素还是这个产品本身的特征带来的?
我个人觉得所有创新业务都会是这样的。不是我个人的。所有的创新业务,就是只有一小部分人信,其他人不信,如果所有人都信他就不是创新,大家就觉得你就做的就是一个普通的工作。而对创新业务,我的感觉可能都是在这种状态。
这样的交互的改变,说实话在科技历史上都没有几次,前面也就两次,鼠标键盘和触屏交互,当语音对话成为一个主流的或者成为一个非常重要的交互方式之后,你有很多的商业化的机会。
过去这一年,对智能语音交互市场有没有新的认识?
第一个,中国市场还是能被打开的。随着用户教育,很多用户对这个产品是接受,虽然中国市场的总量不是那么多,但是粘性非常好,用户愿意用。所以这个是一年之后比较欣慰的。
第二个,能找到刚需场景,有的时候技术还没有准备好的时候,但是场景控制好。还是能找到刚需。电视上是很清楚的刚需场景。
当然也有在平台上一些新的认知。18 年我们应该做什么?哪些方面做的可以做的更好?细节我不方便分享,但这些都是一些新的收获。
新的想法是自己的认识还是有一些人或者事情对你产生的影响?
我觉得可能都有,不只是对我的影响,我觉得我们整个团队在过去一年都有很多的提升。而且是认知上的提升。就是在面对一个新的市场的时候,谁有最好的判断再加上最好的执行力,谁就能赢。我认为我们这个团队在这个领域有着最好的认知和执行力。因为作为最领先和活跃的开放平台,我们接受到的信号最多,当你有最多信号的时候,做决定的时候也会更坚决。
DuerOS 在短期内很难盈利,这个事情会对你产生困扰吗?
完全不会。这样的交互的改变,说实话在科技历史上都没有几次,前面也就两次,鼠标键盘和触屏交互,当语音对话成为一个主流的或者成为一个非常重要的交互方式之后,你有很多的商业化的机会,因为这是信息和服务很重要的一个入口。这种时候你还担心什么商业化吗?我根本不担心。
你认为 2018 年相比于 2017 年,中国的智能语音交互市场会发生什么样的变化?
我觉得会更活跃,会看到更多的有意思的产品会出现,并且出现的节奏会更快。包括我们与合作伙伴仍在研发的产品,目前在执行中的已经非常多了,而且都会有很多创新。所以我觉得 2018 年会是非常精彩的一年。