Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Siri是怎么沦落到苹果内部人工智能“孤儿”的?

相比亚马逊的Alexa,Siri早了3年;相比谷歌的Google Assistant,Siri早了5年。

乔布斯曾将Siri看做是语音为先新世界的入口之一,甚至重病在身都要亲自打电话给Siri的创始人,直至最终说服他们将Siri团队带到了苹果。

2011年,iPhone4s面世当天,Siri以智能语音助手的姿态正式登上舞台中央。

但7年后的今天,Siri的联合创始人TomGruber宣布自己将从苹果正式退休,至此,Siri的三名联合创始人全部离开了苹果。

 原本以为属于Siri的镁光灯,反而随着乔布斯的去世,不断地被风吹雨打去。Siri最终也没变成乔布斯想要的人工智领域的入口,反而变成了苹果内部人工智能的“孤儿”。

加入苹果前的甜蜜

2010 年,Siri 首次亮相时已经可以和 Yelp、StubHub、TottenTomatoes、Wolfram Alpha 等 42 个不同的网络服务相连,并从各个信息源中挑选出最有价值的信息,整合成一条答案呈现给用户。

一次接受采访时,Adam Cheyer表示:“我们开始做这个公司,就是想要改变世界。我们刚出发的时候,有一次在苹果店的墙壁上看到各个应用大佬的图标,Facebook、Twitter 、FourSquare等等,当时,我们就想,有一天我们Siri也会在那面墙上,和那些大佬一起。”

此时,Siri的创始团队也已经拿到B轮融资,“在我看来,Siri是世界上第一个多领域、大规模应用的对话性的助手。我觉得我们实现了这个领域里一个不可企及的梦。”Adam Cheyer这样评价Siri的开创性创新。

突然有一天,他们接到一个电话:“我是乔布斯,你们明天有事么?来我家谈谈?”

在乔布斯位于Palo Alto的家中,Siri公司的几位创始人和乔布斯对话了3个小时,探讨了“do engine”的未来以及人机对话的方法,苹果有意收购这家年轻的公司。

“乔布斯和ScottForstall对于语音识别的方法以及如何在iPhone上创建语音界面十分感兴趣。”Kittlaus说,“乔布斯认为,我们所设计的这款简洁的会话界面将会打破该领域的规范。”

Verizon(美国最大的本地电话公司)也和苹果想到一块儿去了。2009年秋,也就是苹果向Siri伸出橄榄枝的前几个月,Verizon就已经为公司签署了一份协议,让Siri在新的一年里成为旗下所有Android手机的默认应用。

而当苹果突然要来收购Siri的时候,开出的条件就是让Siri成为苹果设备的专有助手,并让Siri和Verizon之间的协议作废。可见,苹果当年险些错失Siri,让它成为自己最大的劲敌Google的利器。

2010 年 4 月,苹果以 1.5~2.5 亿美元收购了 Siri。苹果还将 Siri 和 iPhone 4S 进行了深度整合,使其能够调用苹果系统的内置工具来处理诸如安排会议、回复邮件、查看天气等简单任务。

Adam所说的那个愿望——出现在苹果店的大墙上,也以他们原来都没想到的方式出现了:Siri直接出现在了苹果每个线下店,每个苹果店员都会向顾客介绍它。

iPhone 4S发布之后,人们问新CEO库克,那个“S”代表什么,库克说,它代表Siri。 由此可见Siri对于iPhone乃至苹果的重要性。

高光时刻后的人心散

在乔布斯看来,Siri是一项变革性技术,能够变革和整合苹果的方方面面。不幸的是,iPhone 4S发布的第二天,乔布斯溘然长逝。

Siri 团队从此失去了一位重要的支持者。这意味着 Siri 团队最初的计划被全部打乱,也为后续的混乱状况埋下了种子。

在被收购后,Adam Cheyer成为苹果iOS部门的工程主管。两年后,他离开苹果。虽然他并没有公开表示他离开的原因,但他曾这样说道:“在乔布斯去世后,苹果公司发生了一些变化。如果乔布斯还在的话,我或许不会离开。

另一位参与并支持 Siri 业务的是 iOS 的前高级副总裁 Scott Forstall。他因Siri 表现不尽如人意以及和乔布斯类似的粗暴性格,不断地和其他高管交恶,在 2012 年 10 月也被迫离开了苹果。

协助 Scott Forstall 管理 Siri 团队的新主管 Richard Williamson 和 Siri 团队在策略上的分歧,也让一些 Siri 初创团队的成员心生去意,其中也包括了 Adam Cheyer 和 Dag Kittlaus。作为 Siri 最初的两位创始人,两人先后于 2012 年选择离职,还带走了 Siri 初创团队三分之一的工程师。

Adam Cheyer 和 Dag Kittlaus于2012年联合创建了的Viv Labs,最终被三星收购,其Bixby也被预置在Galaxy S8。近期有外媒预测,Bixby也会被三星用于自己的智能音箱之上。

而Scott Forstal 离开后,苹果挖来了亚马逊搜索部门以及广告业务的高管 Bill Stasior 来管理 Siri,主要负责语音识别、自然语义理解和搜索等多个 Siri 核心团队的管理工作。

有苹果前员工对媒体描述,Bill Stasior 更倾向于将 Siri 打造成一个世界一流的搜索引擎,他将当时苹果在搜索功能方面的资源和 Siri 聚合在一起,以进一步提升 Siri 的性能,包括在网页、媒体资源以及 Wiki 百科领域的搜索能力。

之后,Bill Stasior 进一步导致了事情的恶化。比如说,BillStasior 在 2013 年主导收购了社交网络分析公司Topsy Labs,但由于编程语言的不同,Siri 和Topsy 之间的数据无法很好的进行整合,这导致用户当时在使用 Siri 和 Spotlight 进行搜索时会出现不同的结果。

这就使得两个团队的负责人多次在会议上出现争论,这种状况逐渐演变成一种派系间的对抗,也直接引发了一连串的资深员工的离职事件,比如,Siri的资深员工Anoop Sinha 也在 2016 年离开了苹果。

此外,苹果的 Forstall,最早在发布会上介绍 Siri 的人,同样也是苹果当年的 iOS 软件负责人,最后被炒了鱿鱼。Luc Julia 接替 Kittlaus 成为 Siri 的负责人,但也只干了 10 个月,在 2012 年辞职 。

Siri 的三位联合创始人中,最终只有 Tom Gruber 一人最终留在了公司。现在,Tom Gruber也宣布正式退休了。

值得一提的是,Bill Stasior 同样对 AdamCheyer 和 Dag Kittlaus 建立自己的新智能语音公司 Viv Labs 感到不满,为了预防出现挖角和跳槽,苹果之后还禁止这两位 Siri 创始人回到苹果园区和前同事打篮球。

而对于Kittlaus来说,在看着自己一手培养的Siri变成半吊子水平后,新款的Viv将扮演AI救赎者的角色。在华盛顿邮报的一次访谈中,Kittlaus就表示,这次他不会再轻易卖掉自己的“孩子”了,因为落入大公司之手后,自己的产品就会再次归于平庸。但最终,Viv还是被三星收入了囊中。

封闭的生态系统雪上加霜

在有着“硅谷独家大王”之称的《纽约时报》高级科技记者约翰.马尔科夫眼中,这是乔布斯生前做的最后一件事,带来的是苹果内部第一次翻天覆地的变化,他为苹果铺平了走向未来的道路——迎接将来人机交互的另一次重要转换。

为了保证Siri 能够和iPhone 4s 一同按期发布,早期的Siri 团队不得不搁置了一项名为“App Store for AI”的计划。而且根据Dag Kittklaus披露,在被苹果收购之后,当时的苹果负责人乔布斯反对Siri和外部公司展开过多的合作,这也限制了Siri的发展空间。

而更明显的是,苹果公司在吸纳了 Siri 公司的 24 名成员后,对 Siri 进行了一系列改造,为它加入了一些新功能, 但同时也取消了 Siri 和许多外部服务的连接。

2010 年原版 Siri 中,一项餐厅预订功能,被苹果推迟到 2012 年才和 iPhone 用户见面。

毕竟,直到 2016 年的 WWDC 大会上,苹果才向开发者推出了 Siri SDK,也就是 SiriKit。这距离 Siri 的初次亮相已经过去了 5 年时间。

选择封闭,很大程度源于苹果公司所一直注重的隐私安全,因此在每一次面对 「开放」这个话题时,苹果都显得保守而谨慎。与之相对,谷歌的语音助手平台则选择向开发者提供全部的对话文本。、

几名接受媒体采访的前员工表示,协助 Scott Forstall 管理Siri 团队的新主管 Richard Williamson 在 Siri 的换代更新上,采取了和 iOS 一样的策略,通过每年一次的方式进行大版本升级。但对于一款需要不断获得实时改进的智能语音服务来说,一年一次的更新根本无法跟上发展的步伐。

此外,iPhone、iPad、Apple Watch、Apple TV各设备有不同的Siri版本,这些版本甚至都不统一。

这样一来,Siri不仅让一向擅长硬件的苹果在突围智能音箱领域时被拖了后腿,也让苹果在进军智能语音交互、物联网、智能家居等重要阵地时,底气不足。

在亚马逊推出Echo和谷歌推出Google Home之后,苹果迟迟地决定要进入智能音箱市场,亚马逊Echo已经发布两年半,并且做了多次产品迭代。而谷歌也已经开始让自己的语音助手登陆iOS平台,从内部蚕食苹果用户。

在资讯公司 Stone Temple 对语音助手的严格测试中,尽管没有一个语音智能助理表现得百分百令人满意,但GoogleAssistant 回答问题正确率高达 74.6%,亚马逊的 Alexa 落后一些,也有 44.3% 的正确率。苹果Siri 回答问题的正确率只有 32.7%,并且大量问题 Siri 都无法进行回答。

Siri 仅仅尝试回答了 40.2% 的问题,也就是说,Siri有六成的问题根本回答不上。在所有语音智能助理的测试结果中,Siri 是唯一一个回答问题数达不到一半的助理。此外,Siri 不仅回达的问题少,而且在这些它回答的问题中,完全正确回答的百分比也最低,仅为 80%。

然而Siri 问世至今的时间却几乎是微软 Cortana 和亚马逊 Alexa 的两倍,是谷歌 Google Assistant 的三倍多,但作为私人助理能够回答问题的能力却远落后于竞争对手,甚至竞争对手每一年的进步都再一次超出 Siri 一大截。

想用买买买和挖挖挖来解决问题

一位前苹果员工坦言,如果乔布斯健在,一定会对 Siri 抓狂。

今年的WWDC2018,苹果再次更新了Siri。但不少外媒都表达了对苹果创新乏力的失望。华尔街日报就一针见血地指出,Siri在基础功能方面严重落后于竞争对手Alexa和Google Assistant。

苹果也曾尝试通过收购缩小差距。

在2015年,苹果收购了VocalIQ,使得Siri有了质的飞跃,毕竟VocalIQ 比 Siri 的几个主要竞争对手都要更加稳定和强大,包括 Google Now, Alexa, 和 Cortana。当然,这也从侧面说明苹果公司的勇气,毕竟不是哪个公司都有勇气在VocalIQ 甚至还没发行它的手机应用前就将其收购的。

这也可以总结成为苹果提升自身创新能力的方法之一:内部创造出的技术与收购来的技术加以整合。从过去的收购记录来看,当一些技术可以嵌入现有苹果产品中时,苹果就会考虑收购。

比如2006年收购的CoverFlow,2012年收购的Chomp、Authentec,2013年收购的Locationary、HopStop、Embark,以及2015年收购的Perceptio和2016年收购的Emotient。

此外,应对诸如Siri这样的人才流失,苹果也非常擅长不断地从其他巨头那里挖人,来填坑救火。

今年4月,不到一周的时间内,苹果挖来了Google在人工智能方面的两位前高管。

苹果先是前Google搜索和人工智能主管John Giannandrea负责“机器学习和人工智能战略”,成为可以直接向库克汇报的16位高管之一。

Giannandrea此前几乎参与了Google在产品中整合AI助手的所有工作,包括搜索、Gmail、Google Assistant等。就在Google宣布将搜索和AI业务分拆后,Giannandrea火速离职,在不到一天的时间内加入苹果。

不到一周的时间,苹果又公布称聘请了Google前ATAP部门主管Jon McCormack担任软件副总裁。

在聘请资深人工智能高管的同时,Siri也在大量招人。今年3月起,Siri相关人员招聘人数增长了24%,其中大部分都是各种与人工智能相关的工程师,他们的工作方向包括改善Siri对问题的回答、处理“常识”和“知识图谱”、语音辨识、Sirikit开发者框架等。

此外,苹果在研发的开支上也特别舍得。过去五年,苹果的研发支出增加了三倍,达到每年100亿美元。苹果也确实在开展一系列项目,比如5000人左右的自动驾驶系统研发团队。

但对于Siri,苹果的辩解是,通过iPhone它已经被全球数亿用户所用,远超任何语音助手了。

结语

《财富》杂志在2012年的一篇文章中曾指出,库克在接管苹果之后,公司发生了一些微妙的变化。

库克与乔布斯在公司运营上的巨大差异,使苹果正在从一家以工程师决策为主、产品导向型的公司转型为一家以生产效率为导向的保守公司。

这种转变直观地反映在苹果产品的变化上,尽管库克并无意削弱苹果的创新基因,但在其领导下推出的两款产品都仅是对乔布斯“遗产”的迭代升级,被指“创新性不足”。

这或许能解释一位前苹果员工所说的:“当史蒂夫在Siri发布的第二天去世的时候,他们(Siri团队)就已经失去了愿景与蓝图,他的去世基本上标志着 Siri 原始团队计划的破灭。”

对于Siri来说,沦落到苹果内部人工智能的“孤儿”也就不足为奇了。

声学在线
声学在线

产业Siri苹果
1
相关数据
自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

推荐文章
文章最后的配图也是本人始终保有自己的iphone4s的根本原因。