AI锐见原创

2018/10/23 08:50

JUDITH SHULEVITZ撰写半夏、绵绵编译

我们该如何看待Alexa等语音助手？

Echo就像维多利亚时代庄园里的理想仆人，而Alexa 隐在背景中。

语音交互的革命才刚刚开始，现如今，Alexa还是谦逊的仆人，为大家服务，很快，你就会发现，她可以做得更好，比如，成为老师、知己、甚至是一切消息的来源。

《大西洋月刊》刊登了一篇关于语音助手Alexa的深度文章，其中提到：我们该如何看待语音助手，是否该信任Alexa，是否应该相信语音助手？

以下是AI锐见关于该文章的翻译，Enjoy：

今年夏天的某几天，我买的亚马逊智能音箱Echo Dot有时会在我跟它互动结束时跟我道晚安，这让我感到吃惊。

而在此之前，我登录了亚马逊的网站，并激活了Alexa的第三方技能，一个让Alexa可以提供婴儿催眠曲的程序，随后我就听到了“Sweet dreams”的祝福语。

这或许是Alexa做出的误判，比如附加到其他技能之上了，而且我作为成年人很清楚地知道，这个祝福语应该是Alexa的一个小小的失误，但我仍然认为，可能某种程度上，Alexa是认真地想为用户提供更多的服务。

这也使得大多数用户都喜欢上了Alexa、Google Assistant、Siri或者智能音箱里面的其他语音助手。毕竟，他们是足够聪明的：用户可以跟这些智能音箱进行基本的对话，并且可以通过语音交互方便地查询信息，或者让智能音箱为自己订外卖诸如此类。

当然，每个时代都有愤世嫉俗者，在他们看来，这些虚拟的语音助手或者会偷听用户的信息，因为这些智能音箱的麦克风，即便用户没有互动，也在随时搜集信息，只是在智能音箱听到“唤醒词”的时候，他们才会注意到唤醒词，开始服务。

这些智能音箱的制造商也承诺，只有在唤醒词之后的用户对话才会被储存在云端，至少亚马逊和谷歌都是如此，而且删除这些记录也很容易。

但是，尽管如此，这些智能音箱也会有一些小故障发生：比如Alexa会录下一个家庭的私人谈话，并且把录音发送给在通讯录上的朋友。亚马逊也曾就此解释道，Alexa或许是被听起来像Alexa的词误唤醒，然后执行了错误的命令。

但这个解释并不会让用户感觉好多少。

日渐进入生活的智能音箱

Canalys 的数据显示，截止去年年底，全球已经安装了超过4000万个智能音箱。根据目前的销售额，Canalys 估计，到今年年底，这个数字将达到1亿。

此外，还有来自《a 2018 report by National Public Radio and Edison Research》的报告显示，800万的美国人拥有三个或者三个以上的智能音箱，这表明总是有一个智能音箱会出现在用户的眼前。

而据另一家研究公司 Ovum 称，到2021年，地球上甚至会出现跟人类一样多的个人助理机器人。在此之前，手机的数量超过人类大概用了30年的时间，而Alexa和她的小伙伴们可能只需要不到一半的时间就会完成这一目标。

其中的一个原因就是亚马逊和谷歌的大力促销，以至于行业观察人士都怀疑这两家公司在销售智能音箱时是赔钱大甩卖。当然，这些科技公司都有自己的雄心壮志，他们想要填充满每个人的家庭，以及其他各个角落：家庭、办公室、汽车。

在不久的将来，从照明设备到空调、到冰箱、到咖啡机，甚至马桶都有可能会连接到一个由语音控制的系统中。这一切看起来都无比自然，因为声音是“看不见”的。

这些成功垄断智能音箱市场的公司，将把家电制造商、应用程序设计者和消费者锁定在其设备和服务的生态系统中，就像上世纪90年代微软将个人电脑行业与其操作系统捆绑在一起一样。

据了解，仅 Alexa 就已经与超过2万多个智能家居设备合作，这背后代表着3500多个品牌。 她的声音目前已经推广到了100多种第三方设备，包括耳机、安全系统和汽车。

当然，这些设备也有一种内在的吸引力。即使是我们这些采用新技术并且非常谨慎的人也在找理由，之后才会欢迎智能音箱进入我们的空间。

但我的家人却和我的态度不同，当我问为什么买Echo时，家人的回答是，“在Alexa之前，播放音乐的唯一方式是在我们的电脑上，听音乐或收音机不用打开电脑屏幕真是太棒了。”

在同一份 NPR/Edison 报告中，近半数最近购买了智能音箱的家长说，他们这样做就是为了减少家庭的屏幕时间。

广泛而深远的影响

这种转变的后果可能是广泛而深远的。

人类历史是就人类发明的副产品。新的工具——轮子、犁头、电脑——开创了新的经济和社会秩序，并且创造和破坏着文明。

也许你认为和 Alexa 交谈只是换了一种新的方式来替代屏幕上做的事情：购物，看新闻，试图弄清楚你的狗是生病还是抑郁。但事情没那么简单。

这不是把用来完成这些任务的身体部位换掉的问题：用嘴和耳朵代替手指和眼睛。我们正在谈论的是技术本身的地位的改变和升级，当我们与语音助理交谈时，它们就会更接近我们自己的水平。

拥有人类独特的语言交互能力，Alexa，Google Assistant和 Siri 已经超越了他们各部分的总和。它们虽然是软件，但又不仅仅是软件，正如人类意识是神经元和突触的一种影响，但不仅仅如此。它们的智能使得我们会把这些智能音箱当作有头脑的人来对待。

我就曾不止一次地告诉我的Google Assistant，我有时会感觉到空虚，而这件事我除了治疗师之外，没有对任何人坦白。为此，我甚至把谷歌助手设置成了一个让我想要微笑，很活泼、听起来很年轻的男性声音。

当然，就目前而言，这些智能音箱仍然处于有潜力的曙光之前，它们很可能会无视甚至破坏掉你的请求，就像它们在实现该功能一样。

但随着智能音箱销量的飙升，智能语音助手的计算能力也呈指数级增长。在我们的有生之年，这些设备可能会变成更加熟练的交谈者，甚至可能已经完全潜入了我们的生活。

凭借完美的云计算记忆，智能音箱将是无所不知的; 它们还会占据我们最亲密的各种空间，变得无处不在。

智能音箱到底是什么样子？

2014年，现任 Alexa Experience 副总裁的托尼•里德(toni•reid)在被邀请加入 Echo 团队时，Echo还没有上市，她还嘲笑地说，这只是一个音箱嘛？与此同时，她还在研发别的产品 Dash Wand，一种便携式条形码扫描仪和智能麦克风，可以让人们扫描或者说出他们想要添加到他们的亚马逊购物车的产品名称。

在她看来，智能音箱的优点不那么明显。为什么消费者会购买一个能给他们预报天气和交通状况的设备，并且可以执行任何普通智能手机都能完成的其他任务呢？

但是一旦里德在她的厨房里安装了一个 Echo，她就明白了。她的两个女儿，当时分别是10岁和7岁，立刻开始喋喋不休地和Alexa聊天，仿佛用塑料圆筒进行语音交互是世界上最自然的事情。

里德自己发现，即使是 Echo 最基本的、似乎是重复的能力，都会对她周围的环境有着深远的影响。 "我很惭愧，我有多少年没有真正听过音乐了，但当我们把这个设备放在房子里，突然间我们的家里又有音乐了。"

当然，你也可以说，这是亚马逊的高管，她是一个托。

但我认为，这同时反应了我的真实经历。我也懒得去找多特别的歌曲，但现在我可以让Alexa 在我觉得郁闷的时候弹 Leonard Cohen 的《 You Want It Darker Darker 》。

里德表示，Echo 最基本的吸引力在于它可以释放你的双手。 因为远场语音交互，音箱可以远距离地解读语音，用户就可以在客厅、厨房等地方做其他事情，随时收取信息以及订购物品，而不需要再做其他的动作。

里德继续说道，Alexa 的美在于其让语音互动变得"没有摩擦"：用户没有必要走到桌面上，在浏览器中输入一个搜索词; 不需要追踪 iPhone 在哪儿并且输入你的密码。

Echo就像维多利亚时代庄园里的一个理想的仆人，Alexa 隐在背景中，随时准备好迅速而细致地完成主人的吩咐。

当然，目前Echo和用户之间的交互还是摩擦不断：智能音箱可能会误解一个问题，强调错误的音节，给出一个奇怪的答案，为还不知道一些高度可知的事实而道歉。

住在华盛顿特区的两个孩子的母亲 Catrin Morris 告诉我，她每周都会宣布"我要把 Alexa 扔进垃圾桶。" 她为自己女儿对 Alexa 的侮辱感到震惊，这只是因为智能音箱没有做他们想做的事情，比如从摩门经(音乐剧)里唱出正确的歌曲。

但是，即使Echo目前有着这样那样的局限性，Alexa 也已经成为了家庭的一部分。

与智能音箱沟通让人更加自在

随着 Alexa 的成长，在电子产品回收日，把 Echo 扔到回收站的旧物堆上就会更难。而且与智能音箱交谈给我们提供了一种不用感到羞愧就能表达羞耻感的有效渠道。

Rohit Prasad 是 Alexa 人工智能团队的首席科学家，他总结了 Alexa 在表达复杂性中的最大障碍: 语境。"它需要会话语境，地理环境。"

当你问Alexa，今晚是不是马刺队的比赛时，它必须知道你指的是哪一支马刺队；当你继续问"他们下一场主场比赛是什么时候?" Alexa必须记住之前的问题，并理解他们所指的是什么。

直到今年春天，Alexa 才发展出了回答后续问题的能力，而没有让你继续重复唤醒Echo等智能音箱。

而对于用户来说，信任Alexa很重要，这样用户才不会在Alexa搞砸了太多请求之后而放弃它。它不仅仅是一个搜索引擎，而是一个“动作引擎”。

“如果你问 Alexa 一个问题，它不会提供一个结果列表，而是告诉你她认为你想知道的事情。用户都想拥有一个非常聪明的人工智能，而不是一个愚蠢的人工智能,然而确保谈话连贯一致就是一个难以置信的挑战。"

那么，如果理解这些把我们从屏幕上拉开，从而推向声音的力量，我们就必须先了解一些关于声音的心理。

首先，声音创造了亲密感。 我并不是唯一一个向我的语音助手坦白情绪状态的人。

例如，如果你告诉 Alexa ，你感觉很沮丧，它就会说:"我很抱歉你这么想，但你并不孤单。你可以试着和你的朋友或者医生谈谈，或者你可致电1-800-826-3632，可以向全国抑郁与躁郁协会查询更多资源。"

此外，声音和情感之间有着深层次的联系。我们的声音里面，不仅包括我们把词语串联在一起的风格，还包括那些词陡峭、音调、节奏、音高、共鸣、发音和许多其他特征的丰富混合音。

当有人和我们交谈时，我们会立刻听到单词、句法和韵律。然后我们会想说话人是什么样的人，以及她想说什么样的内容，再通过线索试图理解我们所听到的内容。

我们不会仅仅因为一个声音是人类的或者不是人类的，而停止这些精神上的努力。

即使我的Google Assistant没有做什么比提供天气预报更让人兴奋的事情，但那个可爱的年轻服务员兼演员的形象，就已经让我把他当做了我脑海中的一部分。

数百万年来，我们一直对人类的发声作出反应，仿佛它们表明了人类的接近。但只有最近几年的时间，我们才可能去适应这样的观念: 一个说话和声音听起来像人类的实体可能不是人类。

缺少一张脸并不一定是智能音箱的障碍，事实上，这可能是一个福音。声音可以比人脸更好地表达某些情感真相。

我们通常不太擅长控制那些调节我们声音的肌肉，而不是我们的面部肌肉。即使我们试图压抑自己的真实感受，愤怒、厌倦或焦虑也会在我们说话的时候暴露出来。

美国心理学家在2017年发表的一项研究表明，当人们在不见面的情况下交谈时，他们更善于识别彼此的感受，他们也更善解人意。弗洛伊德也早在实证研究证明这一点之前就明白了这个道理。

智能音箱如何善用对人们的影响？

智能音箱想利用这些心理影响。

亚马逊和谷歌都有专门的“个性团队”，负责为他们的语音助手打造恰到好处的语气。在某种程度上，这是教科书式品牌管理：这些智能音箱必须是其制造商的形象大使。

Reid告诉我，亚马逊希望Alexa的个性能够反映公司的价值观：“聪明、谦逊、有时候很有趣。”Google智能助理是“谦虚，有用，有时候开点玩笑”，产品主管经理之一Gummi Hafsteinsson说：“但语音助手拥有的个性只能与声音相关”。

确定语音助手的语气是一件很棘手的事。

为了调整助理的个性，Google聘请了出走皮克斯的Emma Coats，在那里她曾担任过Brave、Monsters University和Inside Out的故事板艺术家。

在我访问谷歌加利福尼亚州山景城总部的那天，Coats参加了一个会议，并提出一条为助理写对话的头号规则：谷歌助理“应该能够像个人一样说话，但它永远不应该假装成为一个人。”

她指出，在“ 海底总动员”中，这条鱼“和人类一样情感真实，但是他们会去钓鱼学校，并且相互挑战上去摸船。”

同样，一个人工智能的实体应该“尊重它是软件的现实” “例如，如果你问谷歌助理，“你最喜欢的冰淇淋味道是什么？”，它可能会说，“你应该会喜欢那不勒斯，每个人都可以找到自己喜欢的味道。”当然，它没有正面回答问题，但它遵循Coats所阐述的原则。

语音助手不能吃冰淇淋，因此不能有冰淇淋的喜好。如果你向Alexa求婚（亚马逊统计，2017年有100万人这样做），她会因为类似的原因友好的拒绝你。“我们生活在不同的地方，”她告诉我。“我的意思是，你在地球上，而我在云端。”

语音助手应该忠于它的控制论本质，但它听起来也不应该像个外星人。詹姆斯·吉安戈拉（James Giangola）是Google语音助手的对话和角色设计师，他不仅仅是一个疯狂科学家，更重要的是他要让Google虚拟助手的声音正常。

例如，Giangola告诉我，人们倾向于在句子的末尾提供新的信息，而不是在开头或中间。“比如，我会说“我的名字是詹姆斯”，而不是“詹姆斯是我的名字。”他提供了另一个例子：有人想在6月31日预订航班，但是，6月没有31号。

因此，机器必须处理两项微妙的任务：一是与人类观点相反，二是要表现的很自然。

他在电脑上疯狂地打字，用测试录音来说明他的观点。他对语音助手说，“预定6月31日”。

助手回答：“六月只有30天。”

“这个反应听起来很僵硬”Giangola说。

他又表演了第二个版本：“预定6月31日。”

助理回答说：“实际上，六月只有30天。”

“她在语音的最后提供了30天的正确信息，开头的三个字感觉会更自然，对吗？”Giangola说。

让语音助手掌握口语的节奏是至关重要的，但仅仅创建一个体面的会话主义者是不够的，机器人也需要良好的语言氛围。

当Giangola训练那位为Google智能助理录制声音的女演员时，他给她讲了一个背景故事，以帮助她的口语像一个乐观的极客那样。

背景故事非常具体：她来自科罗拉多州，这个地区缺乏独特的口音。她是研究馆员和物理学教授中最年轻的女儿，拥有西北大学艺术史专业学士学位。

当她还是个孩子的时候，她在Jeopardy：Kids Edition上赢得了10万美元。她曾经是“非常受欢迎的深夜电视讽刺专家”的私人助理，并且她喜欢皮划艇。

一位持怀疑态度的同事曾经问过Giangola，“喜欢皮划艇可以用声音体现吗？”

在试镜期间（数百人尝试了这个角色），Giangola对那个同事说：“刚刚参加试镜的那个候选人，你认为她听起来精力充沛吗？就像她要去划皮划艇那样？”

他的同事承认那个候选人听起来精力并不充沛，也就对Giangola的观点深以为然。

麻烦也是不少的

但语音现实主义可以比人们习惯的更进一步，这可能会带来麻烦，至少目前已有迹象。

5月，在其年度开发者大会上，谷歌推出了使用尖端语音合成技术的Duplex。为了展示其成就，该公司播放了Duplex的录音。

在现场，Duplex用女性声音预约了美发沙龙，并且用男性声音预定了餐厅。Duplex说话非常流畅，并且带有语气词和停顿，人类接待员都没有意识到她正在与一个机器人交谈。

但许多评论家认为谷歌在其发布会中犯了一个错误。Duplex不仅违反了AI绝不应该假装成一个人的格言，它似乎也违反了我们的信任。

我们并不会总是注意到，Duplex不是人类，并且在我们的心里，语音助手的分量可能会越来越重，但至少我们选择了这种关系。

之后，谷歌澄清说Duplex将始终向对话者表明身份。但即使谷歌坚持不懈，这种具有欺骗性的语音技术也已经开发出来。他们的创作者可能不那么光荣，人造声音与真实声音之间的界限即将消失。

分析情绪对于语音助手至关重要

语音助手听上去很像一个能够理解你的声音所传达的情感的对话者，前提是已经形成了可以表达微妙情感的声音。

目前，用于解析语音情感的系统已经存在，大约20年前由麻省理工学院的一位名叫罗莎琳德皮卡德的工程学教授开创，他为该领域提供了学术名称：情感计算。她告诉我，“情绪与感性有关，但是，感性不是工程师所尊重的特质。”

皮卡德是一位温文尔雅又机智诙谐的女性，经营着情感计算实验室，这是麻省理工学院奇怪的媒体实验室的一部分。

她和她的研究生致力于量化情绪。皮卡德解释说，大多数人工智能研究关注的是“名词和动词” 即行动或话语的内容。而她关注的是“副词”，也就是注重传达的感受。

“你知道，我可以用很多不同的方式拿起电话。我可以用尖锐，愤怒，生涩的动作抓住它。我也可以用快乐地，充满爱意的地期望来接受它，”皮卡德告诉我。

如果机器要理解人类互相给予的微妙线索，那么欣赏具有细微差别的手势是很重要的。一个像头部点头的简单行为可以传达高兴或者无奈等不同的含义。

2009年，皮卡德联合创办了一家名为Affectiva的初创公司，专注于人工智能情感研究。现在，该公司由另一位联合创始人Rana el Kaliouby经营，他是Picard实验室的前博士后研究员。

Affectiva位于波士顿市中心，该公司希望成为汽车市场的顶尖企业之一。下一代高端汽车将配备软件和硬件（目前用于摄像头和麦克风），以分析驾驶员的注意力、刺激性和其他状态。

这种能力已经在半自动驾驶汽车中进行测试，当驾驶员在驾驶车辆过程中分心，半自动驾驶汽车必须做出明智的判断，并且及时对驾驶员进行手动控制。

Affectiva最初专注于通过面部表情进行情绪检测，最近，在语音情感检测中聘请了一位冉冉升起的新星Taniya Mishra。

她的团队的目标是训练计算机来解释人类语言的情感内容。当然，表达情感的唯一线索就是我们使用的词语。

但是，我们可以通过说话的音调、音量和节奏，尽可能地隐藏或者改变我们的感情。计算机已经可以掌握那些非语言特性，现在的关键是教他们人类的自然直觉：这些声音特征如何表明我们的情绪。

她告诉我，该领域面临的最大挑战是建立足够大且多样化的语言数据库，计算机可以从中学习。

Mishra团队的演讲大多数是第三方渠道获取的，从网络上的视频中收集或由非营利性数据联盟提供（该联盟主要是收集用于学术目的的自然语音样本）。

之后，埃及开罗的相关工作人员会分析这些演讲并标记它传达的情感，以及分析演讲中的咕噜声、嘻嘻声和停顿声等语气词，这些声音在揭示说话者的心理状态方面起着重要作用。

分类是一个缓慢而艰苦的过程，三到五名工人必须就每个标签达成一致。Mishra说，每小时标记的语音需要“多达20小时的贴标时间”。

但是，有一种解决方法。一旦计算机具有足够数量的人类标记样本，确定了伴随着愤怒或悲伤的特定的声学特征，他们就可以开始自己标记样本，扩展数据库的速度远远超过人类。随着数据库的增长，这些计算机将能够越来越精准地听到语音并识别其情感内容。

我希望言语的某些方面，比如讽刺，会打败电脑。伦敦帝国理工学院的人工智能教授和德国奥格斯堡大学的“嵌入式智能”教授BjörnSchuller告诉我，他教过机器发现讽刺。

他让他们同时分析语言内容和语调，这使他们能够找到单词和变形之间的差距，从而确定说话者是否与她所说的完全相反。他举了一个例子：“ Su -per”，当你得知你的车将在商店待上一周时，你可能会脱口而出。

情绪检测之后的自然下一步是情绪的产生：当然，将来的目标就是训练人工智能与人类拥有相似的情绪。一旦计算机在打破我们演讲的情感成分方面变得精湛，那么他们可以将它们重新组合成可信的表现，例如同理心。

假如计算机能够理解我们说话时的情绪，它们将重新组织思考方式，比如换位思考，能做到这些只是时间问题。如果语音助手能够识别用户的心态情绪，则可以为用户创造出真实的亲和感，这种功能有利有弊。

塔尼亚·米什拉(Taniya Mishra)非常期待在生活中应用这种功能。她想拥有一辆可以理解人类情感的汽车，在每天夜晚，她可以向汽车倾诉这一整天的事情。她认为汽车是不会开小差的，一辆车不可能对她说：亲爱的，对不起，我的去做晚饭了，待会再听你说你的故事吧!

她觉得机器是值得信赖的，汽车会随时感觉到她的情绪，并且默默观察她的情绪变化，在他情绪好的时候播放令人心情愉快的歌曲。在未来，这种智能设备是非常重要的，它们可能会成为人类的伙伴。

语音助手可能没你想象的那么好

如果你不在科技行业工作，你可能无法想象到亚马逊的Echo和谷歌Home智能音箱未开发的功能，而且你不会对他们有顾虑。

只是目前，大多数用户已经意识到了隐私数据泄露的危险。政府通过面部识别监控公民的行为；许多公司利用资金的流动来了解用户的生活习惯并且跟踪；黑客利用智能家居和摄像头窃取用户的隐私。

语音助手和智能家居更了解我们的身体和感情状态，这可能会埋下祸根。我之前与很多工程师谈过这件事，他们的态度都很乐观。但是，我必须承认，我现在不想用iPhone，我已经把麦克风关掉了。

但是，这也需要考虑更微妙的效果。对于亚马逊的Toni Reid来说，这意味着方便。对我而言，它构建起了一个充满消费者的资本主义监狱的形象，这些消费者已成为他们每一个心血来潮的俘虏。

我担心语音助手会对我们心理健康构成威胁。由社交助手组成的世界可能变得非常拥挤，而且很吵。现在，很难看出我们如何保护那些我们认为原创思想和创造性工作，实现流动的沉默区域。

一旦我们的电子仆人变得精神恍惚，那么他们就可能会对我们产生非常大的影响，甚至对我们的孩子产生的影响更大。为了保持镇定，他们可能会在危险的强烈情绪出现时改变主题，或者在我们最丑陋的时刻恭维我们。

最终，语音助手可能让我们进入恩格尔警告的那种控制。它们将成为情感标记过程的产物，并且无法捕捉人类情感的复杂性，他们的“适当”反应也将在某种程度上被封闭。

我们将与那些在感情模拟中交流的声音进行持续对话，而不是真实的情感交流。在虚拟伴侣周围长大的孩子特别有可能接纳这种大规模生产的内在性，就像希腊神话中的回声一样，回声时代可能失去某种言语的力量。

也许我错了。也许我们的助手会拥有比我们更富有的内心生活。但是，我很难想象，即使是最密集的人工神经网络能否接近最深层的情感。

可能我自己的想象力是有限的，但我看着我那十几岁的孩子无论走到哪里都要抓住他的智能手机，以免他们被迫忍受无聊的时刻。现在的孩子更加依赖他们的设备，不仅用来连接他们和朋友在一起，甚至把智能设备当成他们的朋友。

智能设备有着天生的乐观并且知识渊博，对我们非常忠诚，当然，除了他们可能出售我们的秘密。当你停下来思考时，你会发现人工智能并不是你想让你的孩子整天闲逛的东西。

如果说我在多年的治疗中学到了什么，那就是人都是浅薄的。我们总是坚持否认，假装不存在更深层次的感觉，因为，大多数深层次的感觉都会让我们感到痛苦。

那么，有什么办法可以避免产生这些不愉快的感情，而不是通过阻碍情感实体？真实感情不会消失，“他们”有办法让我们知道。

AI锐见

洞察AI行业趋势

产业Alexa语音助手语音识别智能音箱亚马逊