Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

围棋人机大战|看各大巨头如何落地人工智能!

2016年3月9日一场举世瞩目的人机大战在韩国首尔四季酒店拉开帷幕,谷歌的人工智能AlphaGo机器人对决世界围棋高手李世石,首轮经过三个半小时的鏖战,AlphaGo机器人初战告捷。而今天的比赛中,Alphago再次击败李世石,听到这个消息,整个人工智能界都沸腾了。虽然接下来还有三场比赛,未到最后还不能断言哪方会取得最终胜利,不过即使李世石后面力挽狂澜翻盘,两次获胜也足以让大家备受鼓舞,也为人工智能的未来带来了充足的想象空间。


人工智能是什么?1956年美国达特茅斯会议上提出了人工智能概念(Artificial Intelligence,AI),希望某天机器人模拟人行为,帮助人类解决实际问题。从此,科学家、工程师,甚至科幻小说家都开始探索、讨论AI。人工智能开始从各个维度感知,进入人类的世界。1997年5月11日,IBM“深蓝”计算机击败国际象棋大师卡斯帕罗夫,对于人工智能来说,这是一个里程碑似的事件。为此,还带来了一定程度上的恐慌,引发了一场关于人工智能与人类自身关系的深层大讨论。


 

然而,将近20年的时间过去了,人工智能似乎并没有给我们的生活带来什么实质性的变化。人工智能没有如同科幻小说或者科幻电影中的场景一样,入侵了我们的生活,展开一场人类与机器间权利的角逐。现在,无论是机器人还是无人驾驶汽车,都还没有真正落地到实用,各类语音助手也还是踌躇在语义理解的层次上,人工智能还没有那么智能,至少没有我们期望的那么智能。

 

虽然,对于我们的期望,AI还是有很长的路要走,不过我们似乎快要看到曙光了。如今的人工智能与昔日相比,切实有突飞猛进的进化,而未来十年将会是人工智能发展的关键时期,获得了人工智能的主导权,未来就能站在价值链的顶端,国内外的各大IT巨头自然不会错过这样的机会。此次人机大战,除了众人调侃李世石大师是Google的“高级软件测试工程师”这个非凡的测试意义外,作者认为最大的价值还是Google对自己人工智能品牌的营销。当然不止谷歌一家,许多科技巨头都在鼓吹宣传自家的人工智能研究,而人工智能的研究不会只局限于围棋等竞技游戏,下面让我们来看一下各大巨头是如何落地人工智能的!


1、国外人工智能落地盘点


Google

谷歌的AlphaGo机器人与韩国李世石的这场人机世纪大战中,无论结果如何,谷歌都是最大的赢家!这场人工智能的宣传营销中,谷歌赚的盆满钵满。

 

谷歌的AlphaGo人工智能围棋程序基于DeepMind技术,今年1月27日,美国《Nature》封面文章《Mastering the game of Go with deep neural networks and tree search》对其进行了详细介绍。融合了高级树查找和深度神经网络,该系统能够很好的应对古老的围棋游戏,必然成为AI宣传良好的切入点。提到Deepmind技术,就不得不说这家公司。DeepMind的创始人是Demis Hassabis ,是一位低调的计算机天才,此次比赛,他也出席在列。

 


当年,Facebook和谷歌几乎是同时对DeepMind投出了橄榄枝,然而经过漫长的抉择,最后还是先下手的谷歌Larry胜出。2014年,Alphabet以5.8亿美元收购了初创公司DeepMind。当然,谷歌收购DeepMind可不是单独出于围棋竞技游戏的考虑,这仅仅是宣传的一个噱头,其还有其更深层次的打算。

 

谷歌公司最为重要的搜索引擎业务,需要人工智能的支持。如何将信息筛选的更为精准和有效,为用户提供更好的应答信息以及决策支持?除了核心业务之外,谷歌地图如何根据用户习惯预测目的地,并实时反馈路况交通信息来调整路线?以及,谷歌现在投入巨大精力的无人驾驶,如何感知周围环境,图像识别和语音识别准确判断,和确认路况信息,以及后期选择最佳路径,控制汽车速度与方向?还有,谷歌的未来的智能家居方向等,所有的这些,都要倚重人工智能,所以,人工智能的技术储备与竞技,其实早已开始。

 

Facebook 

上文中提到了Facebook在收购DeepMind中的失利,如今看Google在此次人机大战中的风头正劲,扎克伯格的反应不仅仅是有些耿耿于怀了。不过,Facebook在人工智能上的研究也不可小觑,与Google在围棋人工智能领域中进行的没有硝烟的战争,其实早就已经开始了。围棋AI长期以来举步维艰,围棋AI的胜利对于人工智能研究来说,的确有里程碑似的意义。其实,早在去年11月,Facebook就在ICLR(International Conference on Learning Representations)上发表了《BetterComputer Go Player with Neural Network and Long-term Prediction》关于代号为“黑暗森林”的围棋人工智能系统的文章。而在谷歌于《Nature》发表文章的前一天晚上,Facebook的AI研究人员还发表了全新的围棋研究报告,表明其在围棋AI领域已经可以让计算机以最快0.1秒的速度来落子。

 

对于Facebook来说,AI是其未来。AI的价值也不仅仅是围棋上的胜利,重要的还是为自家的产品保驾护航,并在未来竞争中占有一席之地。除了图像处理、文本分析、语音识别以及战略游戏领域,围绕其用户社交关系和社交信息来展开,如何通过人工智能来优化算法,给用户提供更多感兴趣的内容,更尤为关键。其中,内测的代号为“Moneypenny”的AI助手,已经提供网络搜索与应用功能,如此长期以往,势必会鲸吞谷歌搜索的核心利益。

 

微软 

提到微软的人工智能,我猜您想到的一定是语音助手小冰与小娜。微软亚洲研究院副总裁洪小文表示,人工智能和个人助理服务将在2016年实现大范围普及。微软中国推出的小冰,看起来更像是一个活跃在社交平台的段子手,是一个嬉笑逗乐的小伙伴。而小娜Cortana还略微看起来像是一个语音助手,号称横跨PC与手机两大平台,不但强势登陆Windows10,在iOS和Android系统说都可以支持。不过,微软语音助手的最终优势还没有显现出来,微软人工智能的具体落地点目前也还没有明确,业界中各有猜测,不少小伙伴都在等着微软放大招。不过,作者认为微软长期以来都很注重基础研究,可能会在人工智能的基础研究中更深入,然而,对于本轮各巨头AI竞技中,微软落地点有些鸡肋,处于劣势。

 

IBM

IBM是一家值得尊重的企业,虽然近年来市场份额有所式微,但其地位和其技术对业界的深远影响一直都在。现在IBM正在从一个硬件、软件公司慢慢转型,其首席执行官Ginni Rometty宣称IBM正在成为一家认知解决方案的云平台公司。而IBM在美国部分裁员的种种迹象表明:正如其所说,IBM的公司业务正在逐渐向云计算与人工智能业务倾斜。

 

作为未来的战略方向,对于人工智能研究,IBM一直在进行,在该领域有着丰富的储备。早在2011年IBM的Watson系统在美国的益智问答游戏《危险边缘》中就曾击败过人类选手。2014年IBM正式对外宣布Watson投入使用,最先进入的就是医疗和金融行业,相信以IBM悠久的市场地位和口碑、信誉,该领域的占领指日可待。而其发布的模拟人类大脑的芯片SyNAPSE,其背后也是诸多AI技术来支撑的。IBM正在以一个巨人姿态,重新构建一个生态系统,或许,人工智能将是IBM重回巅峰的一个契机与开端。

 

Apple 

提到国外科技巨头,就少不了苹果。苹果在人工智能领域的投入也不少,而且苹果一直秉承着他的战略布局思想,稳扎稳打。作为人工智能的入口,语音助手是生态链中必不可少的一环。我们耳熟能详的Apple Siri,依托iphone在手机市场中强大份额,不得不说,在通用领域里和其它同类语言助手比较,Siri是其中的佼佼者。


2015年,财大气粗的苹果秉承其一贯风格,收购了多家人工智能公司。其中,英国人工智能公司VocallQ,主要研究语言处理和机器学习技术,可应用于可穿戴设备、智能家居领域,并且该公司在智能汽车的应用开发中一直很深入。该公司的技术将有望进一步提升Siri,并帮助苹果进入智能车载领域。在此之后,苹果又收购了人工智能初创公司Perceptio,其主要技术优势是在手机上运行人工智能图像分类系统,而不需要外部数据库提取,该理念非常契合苹果的产品路线。除此之外,还有动作捕捉技术公司Faceshift,脸部表情分析与情绪识别技术公司Emotient等,结合自身的iphone,iTV等硬件产品的优势,苹果将不断改善其产品的用户体验,并以智能硬件和智能家居方面的产品优势,不断增强用户黏性。

  

2、国内人工智能落地盘点


看完IBM、Google、苹果、微软等国际IT企业在人工智能领域投入了数百亿美元规模的研发资金以及智力投入,自然,要来盘点一下国内的企业。

 

科大讯飞

 科大讯飞是目前国内最有影响力的语音技术公司,在中文语音主流市场中占有70%的市场份额。1997年依靠中科大语音处理技术快速起步发展,凭借收购多家语音评测公司,如启明科技等,建立起其在国内教育市场语音领域的垄断优势,科大讯飞在人工智能领域的语音合成语音识别人脸识别、图像识别、机器翻译、智能阅卷等方面有其独到的技术和产业优势。

 

目前,科大讯飞根据其自身优势,启动“讯飞超脑计划”,抢占人工智能制高点,主要落地点还是其自身所在的优势领域。董事长刘庆峰在两会期间媒体见面会中提到,讯飞超脑计划未来的方向是让机器可以有知识的表达,知识的学习和推理的能力,不光是英语的口语作文机器可以代替人工,比人工专家还要准,目标是到2020年让机器能够考上大学考上一本。

 

百度

在国内的政策导向趋势下,百度作为国内的搜索巨头,一直以谷歌为风向标,紧跟谷歌的研究方向。不过,尽管很早就确立战略方向,但是直到2014年5月,深度学习专家吴恩达先生加盟百度,百度的人工智能才算真正的发展。2014年后半阶段,百度开始基于本身的大数据优势,在人工智能算法、云计算、语音识别、图像识别领域,以及自动驾驶领域开始构建研究,并形成自己的技术优势,凭借百度强大的资金支持,已取得不错的效果,终于有了与其它巨头在人工智能领域竞争的勇气和实力。


阿里,腾讯

提到巨头,除了以上确切提出人工智能战略宣传的两家公司外,我们不得不提阿里和腾讯。


目前,阿里的人工智能方向主要还是在云计算与云服务方面,这与阿里的业务核心业务是分不开的,阿里拥有为之骄傲的电商系统与大数据平台。2015年8月18日,阿里宣布推出国内首个人工智能平台“DITPAI”。该平台将集成阿里巴巴核心算法库,包括特征工程、数据探查与统计、大规模机器学习深度学习,以及阿里在文本、图像和语音处理方面的技术等。除此之外,阿里还热衷于投资人工智能初创公司。前段时间,阿里向语音技术公司思必驰(AI Speech)投资近两亿元,思必驰于2007年创立于英国剑桥高新区,主要从事移动互联、智能设备、客户联络中心等行业智能语音技术的研究与产业化。


对比于阿里,腾讯拥有的是国内最多的互联网社交用户群体,拥有着最高频的互联网应用,这些得天独厚的优势,使得腾讯在AI领域内,遍地开花。从软件服务到智能硬件的小规模试水,腾讯一直致力于用QQ和微信物接一切。除此之外,腾讯内部专注于图像处理模式识别机器学习数据挖掘等领域,积累技术,并建立起结合语音,唇语及面部表情识别的图像处理技术。而且,2015年腾讯成立了智能计算与搜索实验室,专注于搜索技术、自然语言处理数据挖掘和人工智能四大研究领域。

 

其它初创人工智能公司

除了上述的巨头公司,国内人工智能领域还有许多出色的初创公司。在计算机视觉图像处理领域,2014年6月获得红杉数千万美元A轮融资的格灵深瞳,致力于将计算机视觉深度学习结合,目前该公司持续为打造自动驾驶汽车,提供视觉感知方面的技术支持;同年成立的Sense Time,获得了IDG的A轮千万美元注资,主要专注于计算机视觉深度学习原创技术研究,其人脸识别技术准确率达99.15%;除此之外,开创基于深度学习的人脸检测创新算法的linkface,和面向人脸识别技术和相关产品应用开发的Face++等公司也都有出色的表现。


而在语音技术领域,如阿里入资的思必驰,来自盛大研究院的云之声,以及出身谷歌系的出门问问等,在技术上也都有不错的成绩,不过在语音巨头的包围之下,市场发展较为缓慢、局促。

 

盘点了国内外各大公司人工智能的落地点后,不得不承认,伴随着深度学习方法在应用中的不断演进和完善,以及移动互联网、大数据、云计算等新技术融合创新,未来5到10年,人工智能可能真的会像水和空气一样,进入到我们每个人的生活。


声学在线
声学在线

产业AlphaGoAI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

特征工程技术

特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。它是机器学习中的一个基本应用,实现难度大且代价高。采用自动特征工程方法可以省去采用人工特征工程的需求。Andrew Ng 说“挖掘特征是困难、费时且需要专业知识的事,应用机器学习其实基本上是在做特征工程。”

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

推荐文章
暂无评论
暂无评论~