在类人机器人的发展之路上,ERICA 是一个不能不提的存在,她具有栩栩如生的外观设计和出色的语音合成系统。机器之心技术分析师对相关论文进行了解读。
论文地址:http://ieeexplore.ieee.org/document/7745086/
引言
这篇论文介绍了一个自动化机器人系统 ERICA,该系统能够进行对话交互,具备先进的传感和语音合成技术,并被一些人认为是截至目前最像人类的机器人。
ERICA 有出色的视觉设计、面部表情和具有很高表现力的语音合成器,是当今最像人类的机器人。她的传感技术基本上是目前能力最好的技术,并配置了高性能的语音识别,能够使用麦克风阵列区分不同的声源以及精准追踪人们的位置和运动状况。
开发者的目标是让 ERICA 能以让人信服的类似人类的方式与人类进行面对面的交流。
背景:当今的机器人
局限性
近些年来,不管是研究界还是大众媒体,机器人都越来越常见了。新闻中出现了名人和个人的机器人复制品,电影和电视节目也在描绘人与机器人共同生活的场景。但是,当今的机器人在执行自动会话交互方面的能力还非常有限。当今的机器人可分为以下类别:
类别
- 非人形机器人和虚拟智能体:能够进行非常拟真的会话交互的虚拟智能体已经被创造了出来。Virtual Human Toolkit [1] 提供了一整套对话和角色设计工具,可用于开发看起来很真实的动画图形角色。Furhat [2] 则是开始试图将 2D 世界与 3D 世界连接起来的机器人,它具有一个可运动的头部和使用反向投影的面部,能够展现各种各样的面部表情。
- 人形机器人:研究者已经开发出了一些具有不同程度类人度的人形机器人,有的能够使用看似自然的姿势和其它社交线索执行相关的交互。这些机器人的造型各异,有机械式的,有动物式的,也有卡通造型和抽象形象。Leonardo [3] 就是一个表达能力很强的机器人,是专为人类交互研究设计的。Aldebaran 的 Nao 机器人已在人机交互研究中得到了广泛的使用,软银的 Pepper 也有望成为另一个能实现丰富的人机交流的平台。
- 拟人机器人:现在已有一些看起来就像人类的机器人。汉森机器人公司已经生产出了很多具有高度表现力的人头机器人,比如 PKD [4]、BINA48、Han 和 Jules,其中某些被安装在一个身体上。这些机器人具备先进的人工智能技术和表达清晰的面部表情,但看起来还是很机器人,有时候还能看到金属部件或暴露的线缆,而且一般还缺少具有表现力的语音合成技术。Geminoid 机器人系列 [5] 也具有高度拟人的外观和表情。
平台架构
这里我们介绍 ERICA 的平台架构。
硬件和驱动
ERICA 的机械和美学设计是与机器人制造商 A-Lab 合作开发的。
外观
她的面部特征比例遵循整容手术中使用的美学理论原则,比如通过所谓的“维纳斯线”(即 Baum 比例)的理想角度和比例定义了鼻子的投影角度,通过“三分法原则”确定了下巴、鼻子、眉毛和发际线之间的等距离的垂直区域 [7]。
整体而言,ERICA 的身体有 44 个自由度(DOF),如图 2 所示,其中 19 个自由度是可控制的。图 2 的右图展示了其主干骨架。
图 2:ERICA 的自由度。左:面部自由度。右:骨架自由度。用黑色标注的关节是主动关节,白色的则是被动关节。
语音合成
ERICA 的语音合成使用了为 Hoya 的 VoiceText 软件设计的定制语音。大多数句子的默认呈现方式通常都是平滑的,语调由语法决定,而且也可以通过人工方式设置音高、语速和声音强度指标。语音合成器生成的音频信号会被发送回机器人以生成嘴唇同步和身体运动行为,如图 3 所示。
传感
ERICA 目前使用的是有线网络连接的外部传感器来跟踪人类的位置,定位声源以及识别语音和韵律信息。图 3 的左侧即为其传感框架。
图 3:ERICA 系统图示,其中包含传感器输入、内部控制逻辑以及与语音合成和运动生成的交互
控制架构
ERICA 平台的软件架构结合了一个记忆模型、一组用于生成动态运动的行为模块以及一个用于对话管理的灵活的软件基础设施。图 3 的中图即阐释了该交互逻辑的核心元素。
公开展示
在公开展示过程中,开发者邀请了一些媒体人和参观者上台使用一个无线麦克风向 ERICA 或研究者提问,如图 4 所示。
在投影屏上给出了 30 个主题的列表,来访者可以按次序向 ERICA 询问有关这些主题的问题。在回应了每个问题之后,ERICA 也会基于对话状态的历史回敬一个问题。举个例子(原对话为日语):
来访者:你年纪多大?
ERICA:我 23 岁。虽然我才被开发出来,但请不要说我是 0 岁小孩。(笑)
ERICA:你认为我看起来会更大一些?
来访者:是的,我确实这么想。
ERICA:(咯咯地笑)谢谢!人们一般都认为我看起来更年轻,所以我很高兴听到你这么说。
在演示过程中,ERICA 也会在不同的时间回应研究者和主持人说的话。来访者、主持人和两位研究者都使用了各自的麦克风,而且每个麦克风的信号都是单独进行语音识别和韵律信息处理的。这让 ERICA 能以适当的方式回应每一个人。比如:
研究者:(在回答了一个来访者的问题之后转向 ERICA)。ERICA,你是最棒的机器人,对不对?
ERICA:(转向研究者并且微笑)是的!(然后,经过短暂停顿后,摆出一个担忧的表情)嗯……实际上,我想想。这取决于给我编程的研究者做得好不好。
成就和未来研究
硬件平台
至少有一家新闻机构以头条形式报道了这场演示活动,参阅http://mashable.com/2015/08/12/erica-android-japan/,“日本的 ERICA 机器人没有其它会说话的机器人那么恐怖”。未来,全身姿势和表现能力将会是必备的。
语音合成
语音合成的自然性和表现力已经相当让人满意。未来,话语将与姿势和表情一起生成。
非言语行为
- 显式的表情和姿势:ERICA 具有微妙的面部表情,看起来像人一样。但仅凭 ERICA 的硬件配置,创造非常夸张的表情是很困难的,但对于日常任务,微妙的表情应该会更有用,尤其是在习惯含蓄表达的日本文化中。
- 隐式行为:ERICA 交互期间使用了隐式行为模块来调节呼吸、眨眼、注视、说话节律和微微点头等行为。未来,这些模块还会继续改进,融入更多新的隐式行为,比如用于发出笑声时的运动控制、无意识的摆动以及通过调整注视和身体运动来隐式地表达情绪的方法。
- 多模态感知:ERICA 已有的传感器网络对这一演示已经相当足够了。未来还会收集伴随语言传达的信息,实现在噪声环境中的韵律信息提取。
- 渴望和意图:目前,ERICA 的应用逻辑都是人工设计的话语序列。未来将会结合 Interaction Composer [8] 等视觉工具来协助交互过程的设计。最终将有必要基于语义表示和机器人的渴望和意图来生成行为。
总结
ERICA 是当今最像人的机器人,具有类人的外表、面部表情和高度表现力的语音合成器。她的传感技术也是当前最好的一些技术,具有高性能的语音识别能力,能够使用麦克风阵列区分不同的声源以及精准追踪人们的位置和运动状况。这项研究有助于我们理解能使用当前最佳的技术做成什么,也能帮助我们解决创造真正类人的机器人之路上的关键问题,进而帮助我们找到前进的方向。
参考文献
- A. Hartholt, D. Traum, S. C. Marsella, A. Shapiro, G. Stratou, A. Leuski, L.-P. Morency, and J. Gratch, "All together now: Introducing the Virtual Human Toolkit," in Intelligent Virtual Agents, 2013, pp. 368-381.
- S. Al Moubayed, J. Beskow, G. Skantze, and B. Granström, "Furhat: a back-projected human-like robot head for multiparty human-machine interaction," in Cognitive Behavioural Systems, ed: Springer, 2012, pp. 114-130.
- C. Breazeal, A. Brooks, J. Gray, G. Hoffman, C. Kidd, H. Lee, J. Lieberman, A. Lockerd, and D. Mulanda, "Humanoid robots as cooperative partners for people," Int. Journal of Humanoid Robots, vol. 1, pp. 1-34, 2004.
- D. Hanson, A. Olney, S. Prilliman, E. Mathews, M. Zielke, D. Hammons, R. Fernandez, and H. Stephanou, "Upending the uncanny valley," in Proceedings of the national conference on artificial intelligence, 2005, p. 1728.
- S. Nishio, H. Ishiguro, and N. Hagita, Geminoid: Teleoperated android of an existing person: INTECH Open Access Publisher Vienna, 2007.
- C. Becker-Asano and H. Ishiguro, "Evaluating facial displays of emotion for the android robot Geminoid F," in Affective Computational Intelligence (WACI), 2011 IEEE Workshop on, 2011, pp. 1-8.
- P. M. Prendergast, "Facial proportions," in Advanced Surgical Facial Rejuvenation, ed: Springer, 2012, pp. 15-22.
- D.F.Glas,S.Satake,T.Kanda,andN.Hagita,"AnInteractionDesign Framework for Social Robots," in Proceedings of Robotics: Science and Systems, Los Angeles, CA, USA, 2011.