当Anne Taylor走进一个房间时,她像其他任何人一样都会关心这样一些问题:哪里有空座位?向我走来的那个人是谁?那个人是在微笑还是皱眉?这个标志牌是什么意思?
然而,对于双目失明的Taylor而言,这些信息并非总是那么容易找到。她说,现在已经有一些能够帮助视障人士的手机应用和工具,但往往功能单一,而且并不是很好用;大多数视障人士更愿意尽可能独立地领略这个世界而不是选择请求他人帮助。
Anne Taylor现在是微软的一名高级项目经理,她的职责是让微软的产品更容易使用,“我们要为真正重要的场景寻求解决方案”,她说。大约一年前Taylor来到微软,她立刻就对一群研究员和工程师的一个合作项目产生了兴趣。他们从事的项目旨在为视障人士开发一套辅助工具——Taylor亲切地称之为未来的“瑞士军刀”(“Swiss Army knife”)“我说,‘让我们做一些真正对盲人群体有重要意义的事情吧!’
这个项目名为Seeing AI,该技术通过计算机视觉和自然语言处理来描述一个人的周边环境、朗读文本、回答问题,甚至能够识别他人的面部表情。SeeingAI可以用于手机应用,也可用于Pivothead智能眼镜。Taylor说,Seeing AI为依靠导盲手杖和导盲犬的视障人士提供了另一个层面的信息,“这款应用将有助于为视障人士营造更公平的环境。”
SeeingAI已在上周举行的微软2016 Build开发者大会上首次公开亮相,并受到了一致好评,目前其正式发布日期待定。Build大会期间,微软还推出了CaptionBot(图像描述机器人),这是一个可以接收任何图像并提供图像详细描述的演示网站。
极深的深层神经网络、自然语言处理及更多
Seeing AI和CaptionBot作为最新的技术成果,其背后的计算机视觉、图像识别、自然语言处理和机器学习等领域的研究已持续了数十年。近年来,一系列的研究突破让计算机视觉研究者们有机会完成在几年前还不敢想的事情。
负责微软认知服务(Microsoft Cognitive Service)中图像描述(Image Captioning)技术研究的微软资深研究员何晓冬形容道:“有人将其形容为奇迹。可以说,我们今天开发的智能技术比六年前好太多了。”他说,该领域的进步是如此之快,不用说六年,就是现在与六个月前相比都会有很多进步。例如,他的团队中主管开发工作的高级研究工程师Kenneth Tran最近想出的一个方案,使得图像描述系统的速度提高了20倍以上,从而让Seeing AI的用户能够更加迅速地获取他们所需的信息。
几年前,研究员们想到了利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习。随着系统获得与任务相关的训练数据越来越多,它们就变得越来越善于做某些事情——机器学习指的就是这个过程。例如,如果一名计算机科学家想设计一款帮助骑自行车的人识别后方车辆的应用,他就要向计算机提供无数张车辆的照片,以让这款应用学会识别一辆汽车与一个交通标志或一棵树之间的区别。计算机科学家以前也曾运用过神经网络,但却不是以这种方式,而如今新的方法让计算机视觉的精确度实现了巨大飞跃。
就在几个月前,微软亚洲研究院首席研究员孙剑和主管研究员何恺明实现了又一个巨大突破:他们推出了一个深达152层的“深层残差网络”系统用于准确识别图片,这一图像识别的新方法显著改善了识别精度。该系统在ImageNet图像识别挑战赛中的错误率低至3.57%,而此前人眼辨识的错误率大概为5.1%。这项研究在学术界引起了轰动,除ImageNet之外,研究员们还赢得了另一图像识别领域的主要赛事:微软常见物体图像识别挑战赛(MSCOCO, Microsoft Common Objects in Context)。
让科技做你的“眼”
微软研究院的研究员们不仅在寻找识别图像的方法,还在为图像进行描述。这项研究结合了图像识别技术与自然语言处理技术,能帮助视障人士获得对图像的准确描述,还可能帮助那些需要图像信息却无法直接看到图像的人——比如正在开车的司机。
与其他研究项目一样,该图像描述的研究工作也因其准确性而广受赞誉,并且为Seeing AI和CaptionBot的功能奠定了基础。现在,研究人员正在努力拓展训练数据集,以便让用户通过图像描述能够更深入地了解自己周围的世界。
Margaret Mitchell
Seeing AI项目组中的Margaret Mitchell是一名专攻自然语言处理的研究员,也是图像描述领域顶尖的研究者之一。她说,她和同事们正在寻找方法,让计算机可以用更加人性化的方式来描述图像。例如,计算机可以将一个场景准确地描述为“一群人坐在一起”,但真人可能会将这一场景描述为“一群人坐在一起享受美好时光。”目前的挑战就是让这项技术懂得一张图像中哪些是对人们最重要、最值得描述的内容。“一张图像中有什么,和我们如何谈论一张图像可是完全不同的两回事,”Mitchell说。
微软的另一些研究员们正在努力让最新的图像识别工具提供更深入的图片解释。例如,与单纯地将图片描述为“一个男人和一个女人坐在一起”相比,对人们更有帮助的描述可能是:“奥巴马和希拉里·克林顿正在摆pose拍照”。今天人们在网上搜索图片时,绝大多数情况下搜索引擎会根据与图片相关的文字内容,从而得到美国名媛金·卡戴珊或“霉霉”泰勒·斯威夫特的照片,这些搜索结果主要依据文本内容。而微软的资深研究员张磊及郭彦东等研究员正在开发一套借助机器学习识别名人、政治家和公众人物的系统,这套系统会根据图像本身的元素,而非与图像相关的文字内容来进行图像识别。
这一研究成果将成为微软认知服务中最新的视觉工具的一部分。微软认知服务基于微软领先的机器学习研究成果,开发者们可以用它来构建应用和服务,例如识别人脸、辨别情绪、分清不同的声音等,这些工具还为how-old.net(微软颜龄机器人)和Fetch(微软看图识狗)等有趣的微软人工智能应用提供了技术基础。
从一个灵感到实用产品
一直以来,微软研究院最新的研究进展都以闪电般的速度转化为人们可以实际使用的产品,而这一现象越来越普遍,微软认知服务就是一例。从事微软认知服务项目工作的工程师认为,他们的工作有点像拼图游戏,用来拼图的模块就是最新的研究成果。“所有这些模块被拼在了一起,而我们则需要弄清楚如何把它们呈现给终端用户。”微软认知服务的软件工程经理Chris Buehler说道。
Seeing AI这个最终将有可能帮助视障人士的研究项目,是研究成果如何快速转化为实用工具的另一个例证。这个项目的想法是在去年“微软骇客马拉松”(//oneweek Hackathon)活动中被提出来的。该活动会让微软各个部门的员工聚在一起,努力让疯狂的想法成为现实。
打造Seeing AI的小组成员包括来自世界各地的研究员和工程师。Seeing AI吸引他们的除了其技术上的挑战外,还有他们期望帮助视障人士更加独立生活的美好目标。“我们是一个由不同背景的人员组成的超级团队,我们努力拿出一些人们切实需要的东西,”自Seeing AI项目成立以来一直在其中担任领导角色的Anirudh Koul表示,他之所以对Seeing AI有着极大的兴趣,是因为他的祖父正在逐渐失明。
而对于文章开头的Taylor来说,双目失明的她加入微软正代表了盲人的需求,这不仅是一次很好的经历,而且真的带来了一种能够改变人们生活的潜在产品。当初,Seeing AI旨在为视障人士开发一套“瑞士军刀”的愿景吸引了她的加入,如今,正如Taylor所说,“我们最后真的推出了这款如此宝贵的‘瑞士军刀’,让其他视障人士也能更好地欣赏这个世界的美好。”
注:本文编译自Decades of computer vision research, one ‘Swiss Army knife’看。