Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

践行科技向善,腾讯优图发布AI手语翻译机

5 月 16 日,全球无障碍宣传日之际,腾讯优图实验室宣布攻克 AI 手语识别技术挑战,联合深圳市信息无障碍研究会发布「优图 AI 手语翻译机」,致力于通过人工智能技术为听障人群搭建无障碍沟通平台。

据优图实验室 AI 手语识别项目组研究员阳赵阳介绍,优图 AI 手语翻译机以普通摄像头作为手语采集装置,依托高性能计算机进行后台运算,用户只需面对摄像头完成手语表达,翻译机屏幕界面就能快速把手语转换为文字,帮助听障人士和健听人士进行正常交流,未来有望在机场、高铁、民政窗口等公共场所部署应用,助力信息无障碍城市建设。

这也是继本月初优图实验室宣布通过人工智能技术帮助警方寻回多名被拐超过 10 年儿童之后,腾讯践行「科技向善」理念的又一体现,也是腾讯计算机视觉领域的又一技术突破。
优图 AI 手语翻译机界面

攻克手语识别难题,自研算法解决沟通障碍

据北京听力协会 2017 年预估数据,我国听力障碍人士已达 7200 万,其中有 2700 万听障者需通过手语等方式进行沟通交流。虽然我国在信息无障碍领域的投入在逐渐增加,但听障人群的一些需求仍得不到满足,尤其在公共环境设施、服务体验等方面。

针对这一问题,优图团队将计算机视觉技术应用到手语识别场景,而此次发布的「优图AI手语翻译机」产品,利用了普通摄像头和高性能计算机,可以识别听障人士的手语,并快速识别翻译成文字。

据赵阳介绍,手语翻译的核心技术是手语识别(SLR),通过计算机算法,自动区分手语表达中的各类手势、动作、手势和动作之间的切换,最后将手语翻译成为文字。此前也有一些团队探索过用人工智能技术缓解听障人士沟通障碍,但往往需要借助一些额外的设备或传感器,不仅增加了使用门槛,而且也无法保证对复杂手语表达的识别率。不仅如此,手语特有的地域性、复杂性和多样性,使得手语识别技术依然存在很大的挑战,难以被实际应用。

此次优图 AI 手语翻译机产品,通过自研算法实现了对复杂手语表达的识。该算法参考了先进的手势识别、动作识别和序列翻译等技术,考虑了手语的地域性和多样性表达,包含了不同的表达习惯和速度。

模型特性

与听障人士手语表达高度符合的数据集、先进的手语识别算法是翻译机得以实现的有力支撑。简而言之,手语翻译算法的实现特征主要有以下几点:

  • 更大更全的手语识别数据集

  • 更强大的特征提取器

  • 句子表达中挖掘词级信息

  • 单句切分并充分考虑句中上下文信息

手语识别算法总体框架图

首先,优图实验室手语识别数据集覆盖了近千句日常表达、900 个常用词汇,是最大的中文手语识别数据集。与此同时,优图对数据进行了进一步的分析和归纳,使优图 AI 手语翻译机能够实现整句的识别和翻译,用户表达的时候可以连贯将整个句子表达完,不需要设定特定的结束或起始动作,也无需在句中故意停顿或放慢速度。

其次对于特征提取器,优图实验室结合了普通 2D 卷积网络和 3D 卷积网络的优势,通过 2D 卷积网络来提取手语中的手势和身体姿势等静态信息,同时通过 3D 卷积网络来提取手语中普遍存在的细微而快速的变换动作的动态信息,最后将这两个信息相结合,产生最后的特征表达。

有强大的特征提取器后,我们还应该关注词层面的信息。因为虽然听障人士在进行手语表达的时候是以句子为单位的,但词才是手语的最小表达单元。为此,优图实验室在视频帧与最后的输出之间加入了词级信息提取单元,词级信息提取单元利用 LSTM 充分考虑特征提取器所提取出的信息,并结合视频中相邻的信息计算出词级的特征表达。

最后,算法在提取词级信息的基础上还需要综合考虑整句的上下文信息,然后再输出最后的识别结果。这对识别手语中的多样性表达非常重要,因为同样的动作只有放在上下文的语境中才能最后确定它的意思。

践行科技向善

「优图团队将继续进行语料库拓展和算法优化,进一步探索在机场、民政等公共服务领域部署,提供无障碍沟通解决方案,方便听障人日常交流提供便利。」腾讯杰出科学家贾佳亚教授表示。

为进一步深入接触听障群体,了解手语和优化数据和识别算法,目前腾讯优图实验室已和深圳市信息无障碍研究会成立 AI 手语识别联合项目组,双方将基于手语数据采集、产品算法优化等展开长期深度的合作,通过与听障者或手语使用者进一步接触,扩充数据容量,完善数据规范,致力于推动后续的产品和服务部署。

深圳市信息无障碍研究会秘书长杨骅表示,腾讯优图提供的这项技术,可以在一定程度上缓解听障者的沟通障碍,为听障者提供更好的服务。
优图和深圳信息无障碍研究会 AI 听障无障碍联合项目组

实际上, 这并不是腾讯在 AI+无障碍建设上的首次尝试,腾讯一直在坚持推动「一个都不能少」和「信息无障碍」理念的传播与落地。从 2009 年起,腾讯在信息无障碍方面率展开探索,截至目前,旗下 QQ、微信、腾讯网、应用宝、企鹅 FM 等大部分产品已针对障碍用户实现专门优化。腾讯旗下各类产品从社交、娱乐、新闻等多维度出发,共同努力,为障碍人士构建友好的信息社会。

产业腾讯优图手语识别智能硬件
相关数据
贾佳亚人物

香港中文大学计算机科学工程系终身教授,腾讯优图实验室杰出科学家。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~