整理 | 王艺
资讯
微软语音识别错误率降至 5.1%,与专业速记员持平
8 月 20 日,微软语音和对话研究团队负责人黄学东宣布,微软语音识别系统错误率由去年的纪录 5.9% 进一步降低到 5.1%,与专业速记员持平。据了解,这两次研究所用测试集均为 Switchboard。Switchboard 是一个电话录音语料库,涵盖体育、政治等宽泛的话题讨论,是语音识别领域的经典语料库。
研究人员通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年的基础上降低了大约 12% 的出错率,同时引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向 LSTM 的卷积神经网络)模型,以提升语音建模的效果。系统中以前就在使用的结合多个语音模型进行综合预测的方法,如今在帧/句音级别和单词级别下仍在发挥效果。
除此以外,研究人员还对整个对话过程进行历史记录分析,预测接下来可能会发生的事情,进一步强化识别器的语言模型,使其能够有效适应对话话题和语境的快速转变。微软方面表示,其认知工具包 Microsoft Cognitive Toolkit 2.1(CNTK)在研究过程中表现突出,研究人员利用 CNTK 探索模型架构和优化模型的超参数。此外,微软对云计算基础设施(特别是 Azure GPU)的投资,也帮助提升了训练模型、测试新想法的效果和速度。
谷歌发布迷你版 Google Home,对标 Echo Dot
据外媒 Android Police 报道,谷歌有望在今年的硬件发布会上发布一款迷你版 Google Home,按照去年谷歌发布 Pixel 手机以及 Google Home 的时间节点,该硬件发布会很可能会在今年 10 月举办,但具体时间地点目前不能确定。据了解,该迷你智能音箱或将成为亚马逊 Echo Dot 的直接竞品,作为家庭智能产品的中控平台,通过 Google Assistant 链接家庭中所有能够被语音控制的设备。
iPhone 8 面部识别系统速度或高达微秒级别,在暗光线环境下依然可用
还有不到一个月,苹果一年一度的秋季发布会就要召开,新一代 iPhone 旗舰将在发布会上正式亮相。此前,机器之能曾报道过 iPhone 8 的面部识别系统或将被用至解锁以及支付功能,甚至可能取代 Touch ID。
8 月 20 日,据韩国媒体《韩国先驱报》报道,苹果公司即将发布的 iPhone 8 的面部识别系统的识别速度高达百万分之一秒 (一微秒) 级别。另据《华尔街日报》报道,iPhone 8 的面部识别系统还整合了红外功能,因此即使在黑暗或光线较弱的环境下,依然可以正常识别。此外,在使用面部识别系统进行解锁时,用户不需要将面部正对手机,在从桌上拿起手机的一瞬间就能自行解锁。
数据分析界的 Siri 获 1600 万澳元投资,红杉资本领投
人工智能初创公司 Hyper Anna 近日宣布获得 1600 万澳元的 A 轮投资,由红杉资本领投,Airtree Ventures、Westpac Reinventure、以及 IAG Firemark Ventures 跟投。此轮融资过后,Hyper Anna 的累计融资额度将达 1725 万澳元。
Hyper Anna 是一家位于悉尼的数据分析初创公司,由数据科学家 Natalie Nguyen、Kent Tian、和 Sam Zheng 创立。该公司的产品为一个企业数据分析问答机器人,能够像 Siri 一样以自然语言对话的方式回答企业管理者关于企业数据的一些问题。创始人们认为,无论规模大小,每个公司都应该有自己的数据科学家来使公司的运营数据产生价值。但市场上数据人才的短缺使得很多公司没有能力雇佣到数据科学家或分析师,因此创始人们想要创造一个简单的、易交互的专业数据分析系统。使用者只需对着系统说:「我的公司运转得怎么样?」系统就能够自动给出相应的图表报告以及分析结论。
公司表示,此轮融资将被用于拓展其海外市场,包括中国大陆、中国香港、新加坡以及美国。其中,香港办公室已在筹备中,将于今年 9 月正式运营。
沃尔玛专利显示其终极物流武器「无人机航母」
其实,我们早已不能用「传统」零售企业来看待沃尔玛:他们一直在尝试向打通线上线下的新零售模式转型,以免被亚马逊革了命。在与拥有 Prime 会员快递服务的亚马逊竞争中,物流是一块输不起的战场。根据彭博社消息,沃尔玛物流项目规划的激进程度,很可能超过了大多数人的想象。
近日,沃尔玛在其新提交的物流仓库专利申请中,描绘了其新设计的「无人机航母」。这是一个悬浮在 500-1000 英尺(150 到 305 米)高度上的「飞艇」,上面有多个无人机起降坞,飞艇既能自主运行也能由人类工作人员远程操控。飞艇承载着货物来到固定位置,再由无人机进行最后一公里的配送。这不免让人惊呼,「简直是快递业的航空母舰」。据悉,去年亚马逊也申请了一个类似的专利,且已获批准。
现代展出首款神经科学启发的概念车,音乐节奏控制驾驶
现代汽车与洛杉矶艺术博物馆联合打造了全球首个应用神经系统科学进行自动驾驶的概念车,创意来自艺术家 Jonathon Keats,车辆基于 IONIQ 车型进行设计。现代将这款车描绘成「无人驾驶汽车的另一种可能」,原理在于使用人类的认知系统为汽车提供驾驶经验。现代汽车为增强下一代的人车关系提供了四种方案,这四种方案全部基于同一种思想,即「在路上,车辆是驾驶员的身体,驾驶员是汽车的大脑。」
在这款概念车中,行进速度由音箱中播放的音乐节奏进行控制,转速依据音乐音量进行调整,驱动效率服从音响系统失真程度的指挥,人类可以通过控制音乐来控制整个汽车的驾驶。这项技术也许永远不会被应用在量产车上,但现代汽车副总裁 John Suh 说:「我们一直在探索能够打破目前交通瓶颈的方式,艺术与科技的融合为我们提供了崭新的思路。」
应用
Body Labs 新技术,仅凭照片对人物进行 3D 建模
Body Labs 成立于 2013 年,总部位于纽约曼哈顿。通过分析大量的人体形状及动作,Body Labs 生成了一个统计学模型,能够仅凭照片或视频生成目标人物的动画短片。
Body Labs 将这项技术命名为 SOMA。利用深度学习技术,SOMA 能够将街景照片、身材数据、图像、视频中的人物摘出,建立 3D 模型,并对该模型人物的动作进行预测。基于这一功能,SOMA 能够整合一些已有的手势地图、动画集等元素进行更加多元化的应用开发。例如在游戏中通过挥动手臂对敌方进行打击、双臂抱在胸前进行防御等。在动画电影制作时,动画人物的表情、动作往往由人类演员进行扮演,通过在演员脸上锚点、或者让演员穿上特殊服装等方式进行动作的对等转化,这往往需要一个专家团队进行相应的实施与处理。SOMA 能够完成上述一个团队才能完成的事情。
Body Labs 联合创始人兼 CTO Eric Rachlin 表示:「SOMA 的价值在于它能够生成动态、精确的 3D 模型而非静态图像。」目前,Body Labs 正将这项技术推向移动设备、VR/AR、游戏应用等需要人体参与的领域。除此之外,无需框选标注的动作捕捉也是该技术的潜在应用场景之一。Body Labs 已将 SOMA API 开放给感兴趣的开发者,目前已经有开发者在利用其 API 开发虚拟试衣应用。
英国开发出世界最小手术机器人,能够进行各种腹腔镜手术
据英国媒体周日报道,英国科学家日前研制出了世界上最小的手术机器人,它可以为成千上万的患者进行日常手术。这个称为 Versius 的机器人,可以模仿人类手臂,进行各种腹腔镜手术,包括疝修补手术、结肠直肠手术、前列腺和耳鼻喉手术。腹腔镜手术与传统的开放性手术不同,实施时只需在病人身体切出一些小口子即能完成。该机器人的制造商剑桥医疗机器人公司称,使用时,外科医生通过操作控制器,利用手术室的 3D 屏幕操纵机器人完成手术。
MIT 最新 AI 医疗系统:帮助医生更好决策
在 MIT 计算机科学与人工智能实验室 CSAIL 发布的最新论文中,研究人员提出了两套帮助医生制定治疗方案的系统。
一套是名为「ICU Intervene」的机器学习系统,该系统收集大量重症监护室数据,如病人的关键生命体征、前期责任医生对病人的备注等信息,与人类范围内的大数据分析进行整合,帮助医生挑选合适该病人的治疗方案。该系统使用深度学习技术,从过去的 ICU 案例中进行学习,并能够实时对当前情况严重的病例做出治疗方案推荐(病危护理),且会对其背后的原因与逻辑做出解释。
另一套系统被称为「EHR Model Transfer」。EHR 全称 Electronic Health Record,即电子医疗档案。该系统能够推动跨 EHR 预测模型的落地。也就是说,用一套 EHR 的数据训练出来的预测模型,能够迁移到另一套 EHR 系统上进行应用,做出有效预测。该团队发现,「EHR 模型迁移」能够对病人的死亡率、住院延长时间做出有效预测。
两套系统都使用病危护理数据库 MIMIC 进行训练,MIMIC 包含四万个病危病例的脱敏数据,由 MIT 生理计算实验室(MIT Lab for Computational Physiology)开发。
观点
黑客才是无人驾驶道路上的最大阻碍
1990 年互联网刚刚兴起时,没有人意识到安全问题的严重性。直到第一轮黑客大爆发,比尔盖茨才向微软公司发布备忘录,指明网络安全是公司发展的重中之重。这情况像极了如今的自动驾驶领域。
目前无人车技术的现状如何呢?众所周知,自动驾驶车辆所采用的视觉及避障算法均源自深度学习,然而深度学习的原理人类至今没有完全掌握。就在去年,卡内基梅隆大学研究人员的愚弄人脸识别系统的实验成为了计算机视觉领域的标志性事件,仅凭一副夸张的眼镜框,你就可以在机器面前隐形。同样是在去年,南加州大学、浙江大学以及奇虎 360 公司联合发布研究成果,研究人员能够黑进 Tesla S 的传感器系统,使得障碍物在无人车的「眼」中消失。
福特的自动驾驶汽车预计在 2021 年进入城市作为出租车上路,谷歌、尼桑、以及其他车企、IT 企业的无人驾驶汽车也将在那个时候陆续投入使用。然而直到现在,无人驾驶论文和媒体报道中依然极少提及无人驾驶系统被黑客利用制造恐怖袭击的可能性。在无人车正式进入我们的生活之前,我们必须完全解决其潜在的安全问题。去年 7 月,通用汽车 CEO Mary Barra 表示,让自动驾驶车辆远离安全漏洞是一个「大众安全」问题。
图说
2025 年,NLP 市场将有望达到 223 亿美金
人类不满足于计算机系统只能读懂编程语言,而是希望它们与人类用人类语言进行交互,因此 NLP 技术被广泛需求。美国研究公司 Tractica 的一份报告表示,NLP 技术在 14 个行业拥有 42 个关键应用案例,辐射范围涉及软件、硬件与服务。Tractica 对基于 NLP 技术的软件行业进行分析,认为人工智能技术的发展将带动 NLP 软件市场在未来十年实现近 40 倍的增长,从 2016 年的 1.36 亿美金增长到 2025 年的 54 亿美金。Tractica 公司指出,NLP 软件行业的发展将带动硬件以及产品服务行业,直至 2025 年,NLP 领域的软硬件及服务总市场规模将达 223 亿美金。
该公司的资本分析师 Mark Beccue 表示:「NLP 领域的增长并不是因为新的 NLP 算法的出现。在过去的 2-3 年,计算成本降低使得大规模计算成为可能。加之数据电子化的进程被急速推进,深度学习与传统机器学习技术在 NLP 领域的融合使用,共同促成了 NLP 市场的爆发。」