Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩作者

按摩、下棋、端茶倒水,上过四次春晚的那家机器人公司又整出了新活儿

谁不想要一个会干家务还能解闷的机器人呢?


提到优必选科技,对机器人感兴趣的读者想必都不陌生。自 2012 年创建以来,他们的机器人曾先后四次登上春晚,2018 年发布的智能教育机器人「悟空」还拿到了美国消费电子展创新奖等奖项。

登上春晚的优必选机器人。


优必选智能教育机器人悟空。

最近,这家公司又整出了新活儿。在 7 月 8 日开幕的 WAIC 2021 世界人工智能大会上,优必选科技发布了他们的全新一代大型仿人服务机器人——Walker X。这也是它连续第二次在 WAIC 获得「镇馆之宝」的荣誉。
 


Walker X 身高 1.30 米、体重 63 千克,不仅拥有出色的运动能力和稳定性,还能精准、安全地完成一系列日常工作。
 


在 WAIC 活动现场,它为我们展示了上楼梯、下斜坡、下象棋、柔顺力控按摩、视觉定位导航、快速行走、单腿平衡、不平整地面行走等多项技能。



除此之外,Walker X 还原生内置了超过 28 种情绪体系,支持喜怒哀乐等情绪表达及机器人状态展示。
 



对于健全的人类来说,上述活动几乎都像呼吸一样自然、简单,但要想把这些技能复制到机器人身上,难度是普通人难以想象的。目前,Walker X 已获得数百项授权专利,覆盖伺服关节、灵巧手、关键结构等硬件系统,以及步态规划、平衡控制、三维感知、定位导航、视觉检测等控制感知算法。

为了进一步了解 Walker 背后的技术,机器之心采访了优必选科技 CTO 熊友军博士。在采访中,他不仅介绍了 Walker X 的技术难点、落地情况,还聊了聊他们做仿人机器人的初衷以及相应的科研合作思路

Walker X 的打造难在哪儿?

如何站稳、走稳?

要打造一款仿人机器人,良好的运动控制能力是最基本的。如果这方面做不好,机器人很容易在运动过程中摔倒。

与上一代 Walker 机器人相比,新一代 Walker X 可以走得更快、更稳,最大行走速度提升到 3 公里 / 小时,能适应斜坡、楼梯等结构化地形和地砖、厚地毯、草坪、碎石等不平整地面,还能背上 10 千克的重物或双手负载 3 千克重物行走。如果在行走或单腿站立时承受外部冲击,Walker X 也能保持平衡。这背后离不开步态规划与控制等能力的升级。
 



熊博士介绍说,为了实现 Walker X 的快速行走,他们通过虚拟本体激励轨迹、足腰协调类人步态、摆动腿运动轨迹优化等算法提高了它的平衡能力,伺服硬件的性能也得以充分发挥。

在不平整地面上行走则涉及全新的脚掌姿态控制算法。该算法可以让机器人的脚掌像人一样,在接触障碍物的瞬间具备柔性自适应能力,又能在脚掌完全接触地面后提供足够的支撑来保证机器人稳定。


此外,由于 Walker X 的定位是一款家用服务机器人,与人类相处时受到外部冲击也是在所难免。为了抵抗冲击,研究人员采用了全身动量控制方案来提高 Walker X 单腿站立时的稳定性,还采用了落足点调整、柔顺控制与姿态控制等多种策略和方法来确保其行走过程中的抗冲击能力。


如何感知外部环境?

要想在现实世界中不摔跤,光会走肯定是不够的,还得学会「看路」,即导航和避障。为了让 Walker X 具备这项能力,研发人员采用了 Coarse-to-fine 的多层规划算法基于多目视觉传感器的三维立体视觉定位,前者可以帮助机器人自动选择全局最优路径,后者则支持 2.5D 避障,能以二维避障的算力获得三维避障的效果。
 



在躲避障碍之余,作为一款家用机器人,Walker 还得学会与人交互,比如在用户回家时确认用户身份,根据手势完成一些指令等。

身份确认有赖于人脸识别。熊博士介绍说,优必选科技的人脸识别结合了自研的跨风格人脸数据生成技术,还在训练过程中加入了类实际场景的模糊增强,使得提取的人脸特征更具表征性,其识别效果在 FLW、MegaFace 等公开数据集上处于领先地位。在此基础上,优必选科技还自研了基于深度学习的人脸质量评估、人脸姿态估计、人脸逆光检测等算法,提高了逆光、暗光等环境下的人脸识别可靠性。

手势的识别分为 1.5 米和 5 米两种距离范围,前者针对边缘端低算力设备,采用了模型压缩减裁、量化处理等技术,所需算力小;后者针对服务器端或有独显、集显的设备,识别距离远,小目标识别能力强,识别精度高。目前,Walker X 已经支持 18 类手势识别,包括 12 类单手手势和 6 类双手手势。比如说,Walker X 可以识别停止的手势,并能做出决策和反馈,中止正在进行中的动作。

如何帮人干活儿?

让机器人帮人干活儿一直是该领域研究者努力的方向和动力。在采访中,熊博士举了个帮人倒水的例子来解释其中的技术和难点。

在接到「倒水」的指令后,机器人首先需要「想」一下如何完成任务,比如先走到冰箱前打开冰箱门,然后拿出瓶装水、拧开瓶盖、把水倒入杯子。其中,这个「想」的过程就涉及任务规划,即对执行动作进行排序;走向冰箱的过程则涉及路径规划、导航、避障和运动控制。由此可见,上面提到的一系列技术其实都在为「干活」做铺垫。但除此之外,拿出瓶装水、拧开瓶盖等操作还涉及物体识别与检测、手眼协调等技术。
 


物体识别与检测方面,算法不仅需要知道目标物体(此处是瓶装水)的类别,还需要知道其位置坐标,然后让机器人依据这些信息进行抓取等操作。通常来讲,服务机器人的物体识别算法需要识别数百类物体,而且类别之间的数量是极度不均衡的。因此,研究人员通过计算每一类物体的有效样本数量来解决类别之间的数量不均衡问题。此外,该算法还用了共存归一化指数函数来解决一个物体具有多个标签的难题。目前,Walker X 已经实现了百余种未建模日常物体在多种环境下的稳定识别。

在得到目标物体(瓶装水)的类别、坐标等信息后,机器人就要执行下一步的抓取、开瓶盖、倒水等操作了,这些动作都考验着它的手眼协调能力。以抓取为例,为了做好这个简单的工作,机器人需要知道最佳抓握点在哪里、每个关节要扭转多少度、所需的抓握力有多大、抓取过程中如何避开障碍物等。为了保证抓取的可靠性,研究人员采用了基于数据驱动的抓取规划范式,通过物理仿真环境生成未建模物体的抓取数据并训练抓取预测深度神经网络。目前,Walker X 已经实现了指定物体抓取、足腿移动抓取、全身协调抓取规划等针对仿人机器人特点开发的抓取功能。


如何表达情感?

如果说让机器人干活专注的是「机器」二字,那么情感方面的研究则更加关注机器人「人」的属性,用熊博士的话来说就是「希望机器人有更多的智能和亲和力,希望它跟人的交互更加亲切自然。」这就需要赋予机器人一定的情感交互能力。

Walker X 有一套全新升级的多模态交互系统,可以实现视、听、触、环境多通道感知。它还内置了原生 28 + 机器人情绪体系和四维灯语体系,可以主动与人交互,与用户建立共情。
 


一家公司如何 cover 那么多技术?

从 Walker X 的技术体系可以看出,机器人是一个技术的集大成者,仿人机器人更是机器人皇冠上的明珠中最亮的一颗。要想把每个方面都做好,单靠一个公司的力量可能是远远不够的。因此,优必选科技建立了一个全开放的软硬一体的科研合作平台

「像 Walker 这种大型服务机器人研究内容非常广,技术难度也非常深。要想建立起一个生态,靠优必选科技一家进行封闭式的开发,我觉得可能不是一个最好的方式。所以现在我们用一种开放的方式,把我们公司在这个领域取得的一些成果放在平台上,面向全球的高校和科研人员开放,让大家共同去推动机器人的研发和进步。」熊博士在谈到开放平台建设的初衷时说道。

具体来说,这个平台的开放可以分为底层、中层和上层三个层面。底层主要涉及硬件的通讯协议,允许外部研究者在上面做一些开发。中层主要涉及控制算法,如运动控制、手眼协调、语音、视觉、操作系统等,需要各方一起丰富。上层主要涉及一些应用,提供各种 API 的接口,帮助用户在不改变底层的情况下开发各种细分场景下的机器人 APP。

基于这一平台,优必选科技已经与卡内基梅隆、清华、华中科技、华南理工等全球多所知名高校展开了合作,在运动控制、感知、双臂协作、情感交互等领域取得了一些研究成果。

在熊友军看来,这是一个双赢的结果,「现在国家也开始推广人工智能和机器人专业,但实际上很多学校和单位是缺乏科研平台的。而 Walker 本身就是一个很好的科研合作平台,能够推动整个行业的快速发展。」

为何执着于大型仿人服务机器人?

刚刚提到,仿人机器人是机器人皇冠上的明珠中最亮的一颗。那既然难度如此之高,优必选科技为何还执着于这一赛道呢?对此,熊友军给出了三个维度的考量。

第一个维度是机器人在各种应用场景中的环境适应能力优必选科技打造 Walker 的愿景是让机器人走进千家万户,因此,它必须尽可能适应为人打造的各种环境,比如楼梯、门把手、桌椅板凳、家用电器等,而不是反过来让人改造环境去适应机器人。与其他形态的机器人相比,仿人机器人在面对这一环境时要方便得多,能投放到健康养老、医疗卫生、科普教育、公共服务等各种需要跟人打交道的场景。此外,仿人机器人的外形和交互方式也更具亲和力,能够满足人类的情感交互需求。

第二个维度是公司战略需求。对于优必选来说,研发前沿技术支撑公司其他产品的应用落地也是 Walker 研发的意义之一。从这个角度来讲,Walker 是优必选产品之树的「树干」,为公司其他产品(树枝)提供养分,现有的智能教育机器人悟空、Yanshee、Ebot、AMR 智能物流机器人、紫外线消毒机器人 ADIBOT 净巡士以及 2021 年登上春晚舞台的拓荒牛等产品都用到了 Walker 的相关研发成果。反过来,这些产品形成了市场和应用,也可以继续支撑 Walker 的进一步研发迭代。

优必选 AMR 智能物流机器人。

优必选科技希望是用两条腿走路,一方面是技术的研发,一方面是商业化落地。技术的提升提高了这些产品的体验感、技术门槛和核心竞争力;反过来,这些产品又能在应用场景中给 Walker 提供反馈从而可以优化产品。这两方面是相辅相成的。」

第三个维度是国家战略需求。「从国家层面来说,仿人机器人是代表一个国家工业和科技水平的综合性科技产品,也是衡量国家科技创新能力、制造业实力以及智能服务水平的重要标志。」熊友军解释说。

为了实现这些愿景,Walker 机器人在五年之内经历了四次迭代,团队的科研、算法、工程、应用等能力都有了显著提升。未来,Walker 的迭代思路将集中在减重、提速以及提高认知能力等方面。

Walker 机器人的四次迭代。

在亮相 WAIC 之后,Walker X 还将远赴迪拜,在今年 10 月份开幕的迪拜世博会上担任中国馆「智能导览讲解员」,为来访者介绍中国在航天等领域的顶尖科技成果。如果你也预定了世博会的门票,不妨去中国馆跟 Walker X 打个招呼。

产业智能机器人优必选科技
相关数据
优必选科技机构

优必选科技成立于2012年3月,是全球领先的人工智能和人形机器人研发、制造和销售为一体的高科技创新企业。

https://www.ubtrobot.com/cn/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

归一化指数函数技术

在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维的向量 的“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。在概率论中,softmax函数的输出可以用来表示一个分类分布,它也就是一个超过K个可能的结果概率分布。实际上,它是分类概率分布中的梯度-对数正态分布。Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此,Softmax函数在包括 多项逻辑回归 ,多项线性判别分析,朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

动量技术

优化器的一种,是模拟物理里动量的概念,其在相关方向可以加速SGD,抑制振荡,从而加快收敛

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
本体技术

在计算机科学和信息科学中,本体包括表示、正式命名和定义概念,数据,实体之间的类别,属性和关系,并在一个,多个或所有域实例中。

姿态估计技术

姿势估计是指检测图像和视频中的人物形象的计算机视觉技术,以便确定某人的某个肢体出现在图像中的位置。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~