机器之心原创

2019/04/22 13:20

只闻其声也能「看透」你，来自「声音画像师」的秘密

你感到抑郁吗？会在开车时打瞌睡吗？有被骗保经历吗？有心脏病隐患吗？AI 或许能够过倾听你的声音来解决这些问题。

人类的声音中蕴藏着比我们想象中还要丰富的信息，你的年龄、身高、体重、精神、情绪、甚至情感、气质、进取心、创造力……与此同时，声音似乎比图像更加安全可控。

基于 AI 算法与声音分析学的融合，「声音画像师」正在帮助医院可以提早发现神疾病及身体疾病，让呼叫中心进行个性化营销，为公司筛选出更为合适的求职者……

作者 | John McCormick

编译 | 张玺

日益强大的机器学习方法，使一切变得皆有可能。

AI 系统可以测量音调、节奏及其他语音特征，并将其与存储的语音模式，包括快乐、悲伤、疯狂及其他情绪进行比较。

虽然声音分析学已经发展了几十年，但成本更低廉的计算力与新一代的 AI 工具，如谷歌的 TensorFlow，才使那些雄心勃勃的项目成为可能。

在情感 AI 或情感计算领域，该技术与计算机视觉结合后，功能将变得愈加强大。例如，车载语音系统可判断驾驶员是否哈欠不断，视觉系统则能判断驾驶员是否在打瞌睡。

咨询公司 Gartner 认为，情感 AI 甚至可能进入消费品市场，Gartner 预测，到 2022 年，10% 的个人设备（目前这一比例少于 1%）将具备情感 AI 功能，如监测个人精神状态的可穿戴设备，和基于玩家情绪自动调整的视频游戏。

但在情感 AI 成为主流之前，必须先克服一个巨大的阻碍：人们的不适应情绪。Gartner 在去年发布的一份调查报告指出，来自美国和英国的 4000 多名受访者中，有 52% 的人表示不希望 AI 分析自己的面部表情，63% 的人表示不希望 AI 为了解她/他们而经常「入侵」其工作与生活。

此外，消费者还特别关心自身隐私，约有 65% 的人坚信，AI 会侵犯其隐私。

Gartner 分析师 Annette Zimmermann 撰写了关于情感 AI 的报告，她表示：「人们普遍不相信 AI。至于大家对 AI 的感受，我认为这是仁者见仁、智者见智的问题，但的确有许多理由令人生疑。」

Zimmermann 表示，系统都不完美，最佳系统的精确率也不超过 85%。

CMU（Carnegie Mellon University，美国卡耐基梅隆大学）语音学家 Rita Singh 说，「这不完全正确。而且我们也不知道系统何时才能变得精确。但是，快了。」

带着上述防止误解的说明，我们来了解下 AI 语音分析技术已经影响以及即将颠覆的领域。

01 医学领域：疾病监控师

2017 年，根据美国国家精神卫生研究所的数据，2017 年，全美有五分之一的人（约 4660 万）饱受精神疾病的困扰。据估计，接受治疗的人仅占需要接受治疗的人数的一半，而新兴的语音技术可能使该问题更容易被发现。

2018 年底，从行为分析公司 Cogito 衍生出的 CompanionMx 公司发布了一款名为 Companion 的移动心理健康监测系统。该系统由美国国防高级研究计划局、美国退伍军人事务部及美国国家精神卫生研究所资助研发。

正接受抑郁症、双相情感障碍和其他疾病治疗的患者，可通过 Companion 下载一个 APP，在智能手机上创建音频日志。系统要求患者定期描述个人感受，并将信息自动传输到 AI 模块进行分析。

运用 Cogito 研发的情感 AI 技术，CompanionMX 可以分析患者的音频及某些行为数据，以了解其情感、情绪或行为的变化。譬如，CompanionMX 通过监测智能手机活动，看患者是否减少与外界的联系。如果护理人员看到有问题的迹象，他们会主动联系患者。

美国国家精神卫生研究所资助了一项关于该 APP 的研究项目，自 2015 年 5 月至 2017 年 8 月。

「研究结果十分令人鼓舞。」项目联合首席研究员、布莱根妇女医院 (Brigham and Women's Hospital) 与哈佛医学院数字行为健康与信息学研究项目负责人 David Ahern 说。

Ahern 表示，这款 APP 可以作为护理人员的早期监测系统。因为多数需要治疗的患者直到病情严重才会寻求治疗，所以，此款 APP 是一个非常必要的工具。

根据疾病控制和预防中心 (Centers for disease Control and Prevention) 的数据，全美每年有 60 多万人死于心脏病。研究人员正尝试使用语音 AI 发现警告信号，帮助人们快速获得治疗。

梅奥诊所进行了一项为期两年的研究项目（2017 年 2 月结束），旨在验证语音分析是否能够检测出冠心病。梅奥医学中心心血管研究中心主任 Amir Lerman 解释说，每个人的声音频率不尽相同，它们可以被分析。

梅奥与语音 AI 公司 Beyond Verbal 合作，采用机器学习识别冠心病的语音生物特征判定标识，而后，在计划进行血管造影的患者人群中展开测试。

所有研究参与者都在手机 APP 上录制了自己的声音，而后，Beyond Verbal 对这些声音进行了分析。研究发现：在血管造影上有冠心病病症的患者也有该疾病的语音生物特征判定标识。

Lerman 博士表示，梅奥希望在不久的将来部署这项技术。「我认为这是一个令人惊叹的新领域，为我们如何治疗患者打开了新的大门。」他说。

02 智能驾驶：评估驾驶员精神状态

根据国家公路交通安全管理局 2017 年 10 月的统计数据，在 2015 年，有 800 多名美国人因为疲劳驾驶而丧生，超过 3 万人在司机疲劳驾驶导致的撞车事故中受伤。

现如今，许多大型汽车公司与 AI 公司正在设计一种 AI，运用语音分析与面部识别技术评估驾驶员的警觉性及情绪状态。

你能看出我生气了吗？

声谱图可用于分析说话人的声音特征。谐波（深色平行线）表示说话人音调和语调的变化。

高情绪活动

线条的剧烈运动反应了语调的快速变化。在较高频率下，线条颜色越深，其代表语音质量越高。

低情绪活动

声音更柔和、平静，谐波的强度要小的多，特别是在高频率下。

来源：Cogito

去年的消费电子展（CES）上，丰田发布了一款概念车 Concept-i，它可以识别面部表情及语音声调。该车在转向柱上安装了一个红外摄像头，在仪表盘上安装了一对 3D 传感器，还搭载了语音识别与对话系统。

系统协同工作，以评估驾驶员的状态。例如，头部下垂、弯腰驼背的姿势、困倦或低沉的声音（或者打呵欠的声音）都表示驾驶人员处于疲惫状态。如果系统注意到驾驶人的疲惫状态，会迅速做出反应。

例如，车载语音助手可以与驾驶员进行对话，提高其警觉级别。并且，随着时间点的推移，对话系统会知道哪些话题最可能吸引驾驶员的注意。

去年 9 月，两家 AI 公司──Affectiva 与 Nuance Communications 表示，他们将携手合作，把情感智能融入 Nuance 的对话型汽车助手中，理解并回应驾驶员需求。

Nuance 声称，目前在奥迪、宝马、戴姆勒、菲亚特、福特、通用、现代和丰田等 2 亿多辆汽车上都可以找到这款名为 Dragon Drive 的对话型汽车助手。

该项由 lovetiva 和 Nuance 公司研发的新技术将使用摄像头来检测面部表情（如微笑），采用麦克风识别声音情绪（如愤怒）。他们的算法采用深度学习、计算机视觉与语音技术，来识别情绪和疲惫的特征指标。

如果驾驶人员已显露疲态，语音助手可通过一些简单的话语提示驾驶员，如「你看起来很疲倦，你想停车休息一下吗？」

目前，上述技术仍处于研发阶段，但是据 Nuance CEO Joe Petro 透露，这些技术或将于几年内正式投入使用。

03 智能营销：个性化的呼叫中心

房地产咨询服务商 Site Selection Group 的数据显示，尽管许多公司将客服业务转移到了海外，但全美仍有 7400 座呼叫中心雇佣了 300 多万名员工。

包括哈门那（Humana，美国大的医疗保险公司）、美国大都会人寿保险公司（MetLife）在内的许多公司，已经部署 Cogito 的 AI 软件，以此来保持保险经纪人的敏锐度及客户满意度。

该系统分析保险经纪人与客户之间的对话，实时跟踪其交互方式。

当呼叫中心接到电话后，会将其流处理至 Cogito 的系统，该系统可评估成百上千个数据点，包括语速、音调等。如果保险经纪人在回答问题前停顿，那可能表明其分心了。如果顾客提高嗓门，这可能是一种沮丧的迹象。

当 Cogito 的系统检测到呼叫过程中可能出现问题时，它将以图标或短信息的形式推送通知到员工的屏幕上，帮助保险经纪人识别、了解客户的情绪。

Cogito CEO Joshua Feast 表示，该系统的主要目标是训练保险经纪人，让她/他们更自信、更投入，更有同情心，「学会与各式各样的客户交谈是一项真正的技能，并非与生俱来，必须后天习得。」

Cogito 表示，其呼叫中心产品的准确性因各类使用场景（如客户服务中心、销售部或理赔管理部）和在各领域中的监控行为而异。

总体上，Cogito 称，该产品的平均准确率为 82%。该公司表示，他们通过人工评审呼叫效果、客户反馈及机器学习分析来验证结果。

大都会保险全球客户解决方案负责人 Kristine Poznanski 表示，大约 15 个月前，大都会在其客户服务中心部署了 Cogito 的系统。

该系统除了为客户服务代表提供呼叫即时反馈及实时指导，还能向经理展示呼叫实时状态。呼叫中心经理可通过数据监控正在进行的呼叫，或者在呼叫结束后与保险经纪人一起复盘呼叫过程。

Poznanski 说道，自从部署该系统以来，公司可追踪客户情绪以评估其接受推荐品牌的可能性，而呼叫中心的首次呼叫解决率和净推荐值也增加了 10%。

04 人事招聘：寻找合适的求职者

根据人事公司 Robert Half International 的数据，超过八成以上的企业老板和经理人表示他们碰到过招错人的情况。通常，新员工难以适应企业文化是问题关键所在。

Voicesense 是一款基于语音的 AI 系统，可改善筛选求职者的效率。

Voicesense CEO Yoav Degani 表示，用人方可将视频、音频面试资料上传至 Voicesense 的云端，该公司的系统会分析 200 多个语音参数，包括语调和节奏等。该系统创建了一个囊括求职者气质、进取心、可靠性、创造力等特征的行为模型。

用人方可以根据系统评分判断求职者是否适合这份工作。Degani 说道，例如，一个组织希望聘用一名销售员，系统就会将一个在对话中表现极其主动且参与度极高的人列为可能的匹配对象。但 Degani 也承认，该公司的模型提供的仅仅是可能性，而非确定性。

Degani 表示，在隐私保护方面，Voicesense 不会存储任何数据，并且其工具只分析语音模式，不分析具体的对话内容。AdventHealth Orlando 是 AdventHealth 医疗系统的一部分，它正采用另外一套分析系统 HireVue 辅助招聘工作。该公司在佛罗里达州拥有 8 家医院，员工数超过 25000 人，每年招聘 8000 人。AdventHealth 的人力资源总监 Karla Muniz 表示，上述数据意味着要审核 35000 多份申请。

每一位符合基本工作要求的求职者都会被邀请参加 HireVue 线上面试，系统算法会评价求职者的面试应答情况，如语音和词组，并结合视觉分析，快速检测面部表情（即微表情）。

而后，评估信息会与每项工作相对应的数据点进行匹配，得分最高的求职者会被邀请参加面试。

Muniz 说，从采用 HireVue 以来，AdventHealth 已将招聘一个人的周期从 42 天降低到 36 天。

05 保险业：反欺诈的第一步

根据行业贸易集团保险信息研究所发布的数据，每年财产险和意外伤害险的欺诈金额超过 300 亿美元。

安联集团（Allianz group）子公司 Allianz-SP Slovakia（保险公司）运用 Nemesysco 的语音压力分析技术处理索赔。该技术可获取针对理赔员提出一系列流程问题时人们的反应情况。根据该公司的说法，系统会寻找标识组合，如说话时的短暂停顿（这可能代表发言人正在提供虚假信息）。

Allianz-SP Slovakia 控制和特殊活动负责人 Jaroslava Zemanová表示，「我们的目标是在没有任何问题的情况下立即赔付，并防止任何类似欺诈的夸大索赔。」

Allianz-SP Slovakia 指出，语音分析并不能证明存在任何不当行为，这只是发现可能欺诈行为的第一步。公司的调查团队需要额外的证据才能拒绝索赔。尽管如此，公司表示，该系统帮他们节省了时间和金钱。

06 刑事侦查：模拟还原罪犯

在某些情况下，语音分析不仅可以提供关于人们健康或情感状态的信息，还能提供关于其外貌的信息。

2014 年，美国海岸警卫队试图追踪一名发出 28 次虚假求救信号的人，对这些电话的紧急反响应费用估计为 50 万美元。

海岸警卫队调查服务中心切萨皮克区域负责人 Marty Martinez 说，这不仅仅是经济上的损失，「它占用了那些真正陷入困境的人的资源。」

除了紧急呼叫录音之外，海岸警卫队调查员基本没有其他线索。然后，她/他们去见了 CMU 的 Singh，Singh 一直致力于计算机语音识别研究。

Singh 仅凭录音就能够确认恶作剧报警人年龄、身高和体重。Martinez 表示，案件目前正在进行中。

Martinez 补充道，该项技术已应用于十多起案件，「它帮助我们缩小调查范围，聚焦调查工作。」

原理是什么？Singh 解释道，人类声音所包含的信息与其身体、生理、人口统计学、医学、环境等其他特征有关。研究人员正在发现这些微特征，并利用它们进行分析。

Singh 说，「我称之为声音画像学。」

Singh 承认，该项技术并不完美，譬如无法精确预测年龄：只能在三年范围内预测。但是技术研究可提高其精度，并将其纳入新领域。

Singh 及其团队最近展示了一个系统，该系统可根据声音重构说话人 60% 至 70% 的面部信息。

Singh 表示，语音分析技术任重道远，但潜力巨大，「它将帮助机器比人类更好地了解人类。」

原文链接：https://www.wsj.com/articles/what-ai-can-tell-from-listening-to-you-11554169408

产业人声识别算法

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

重构技术

代码重构（英语：Code refactoring）指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。软件重构需要借助工具完成，重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中，重构需要单元测试来支持。

来源：维基百科

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

准确率技术

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源：Google ML Glossary

情感计算技术

情感计算(也被称为人工情感智能或情感AI)是基于系统和设备的研究和开发来识别、理解、处理和模拟人的情感。它是一个跨学科领域，涉及计算机科学、心理学和认知科学（cognitive science)。在计算机领域，1995年Rosalind Picard 首次提出affective computing。研究的目的是使得情感能够模拟和计算。这个技术也可以让机器人能够理解人类的情绪状态，并且适应它们的行为，对这些情绪做出适当的反应。这是一个日渐兴起的兴欣领域

来源：Wikipedia

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源：What is Automatic Speech Recognition?

对话系统技术

对话系统大致被分成两类：任务为导向的对话系统，帮助用户去完成特定任务，比如找商品，订住宿，订餐厅等。实现任务为导向的对话系统，主要有两类方式，流水线方法和端到端方法。非任务导向的对话系统，与用户进行互动并提供回答，简单的说，就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类，生成方法和基于检索的方法。

来源：CSDN

宝马机构

宝马(BMW)是享誉世界的豪华汽车品牌。宝马的车系有1、2、3、4、5、6、7、8、i、X、Z等几个系列，还有在各系基础上进行改进的M系（宝马官方的高性能改装部门）。宝马公司创建于1916年，总部设在德国巴伐利亚州慕尼黑。BMW的蓝白标志宝马总部所在地巴伐利亚州州旗的颜色。百年来，宝马汽车由最初的一家飞机引擎生产厂发展成为以高级轿车为主导，并生产享誉全球的飞机引擎、越野车和摩托车的企业集团，名列世界汽车公司前列。其全称为Bavarian Motor Work。 2018年7月10日，长城公司与宝马公司签署合资协议，合资成立光束汽车有限公司。2018年10月11日，宝马集团举行了中国战略协议签字仪式和华晨宝马铁西新工厂开工仪式。宝马对华晨宝马投资新增30亿欧元，合资协议延至2040年。 2018年12月18日，世界品牌实验室编制的《2018世界品牌500强》揭晓，宝马排名第16位。

www.bmwgroup.com