计算机视觉是一门跨领域的计算机科学,它从真实的世界中获取数据并予以分析,来生成数字或符号信息。通过这种方式计算机可尝试处理高维数据,这种方式正是人类视觉感知图像、面孔和类似数据的方式。因此,为了完成上述任务,这门学科大部分由不同模型组成,而且通常需借助于机器学习的研究成果,从数学(特别是几何)、物理、统计、认知科学和神经科学中获取输入参数。自从科学家试图通过模拟人类大脑来创建计算机的视觉或感知能力,神经科学变成为了不同的技术、算法和模型获取灵感的源泉。
计算机视觉有很多分支学科,比如面部/头部追踪和监测、物体识别和姿态估计、图像追踪、场景重构、机器学习、动作捕获与估测、图像识别与修复,等等。事实上,我们可将人工智能视为其母学科,因为它利用机器学习和计算机视觉来获取对环境的深层理解。有时候也会有一些哲学问题,因为它可能会被问到计算机是否真的能够看见或意识到发生了什么。
例如,著名的塞尔思维试验——中国房间,该实验描述了一个完全接收计算机指令的人,比如「当你看到这个中国符号时,输出这个英文单词」。我们能说这个人懂中文吗?当然不能。即使对于一个外部观测者来说似乎这个人是懂中文的,但大部分人都会予以否认。类似问题也被用于人工智能观测:如果计算机只是遵循指令,我们能认为它有感知吗?好奇者号、火星漫游者、新视野号,这些太空飞船真的能看见周边环境还是它们仅是遵循人为指令?当深思(Deep Thought)在下象棋时,它真的在深思吗?这些硬人工智能的问题就好像:大部分科学家相信像人一样完整的理解我们周边的世界对于计算机来说是不可能的,因为总有一些缺失的环节,无法真正理解发生了什么。
神经科学的进展,尤其是在神经生物学上,给计算机视觉提供了非常重要的数据,因为大部分模型和方法都依赖于对人类视觉的研究。图像传感器检测电磁辐射,是利用了基于对量子物理研究的技术。主体用来追踪并研究光线,而想要完整的理解这一点如果没有现代物理是不可能的,因此光和粒子通常是研究的重点。由于爱因斯坦的相对论理论,我们发现速度是有限制的,最大也只能达到光速。著名的爱因斯坦方程告诉我们质量乘以速度的平方就等于能量,不管质量多少,物理上都等同于能量。
这就是恒星从其核心发生氢聚变,形成氦时制造能量的方式,因此它们的某部分质量变成了能量。 另一方面,量子物理给我们讲了一个亚原子级别的故事,基本和非基本粒子的行为并不像看上去那样可以预测。量子物理的重大发现告诉我们,我们可以用概率和统计来描述粒子状态,而世界并不像我们想的那么精准。这也是爱因斯坦直到去世都反对量子力学的原因,因为他相信物理应该能由精确的规律支配,我们能够完整的理解世界,并且不用概率来描述世界。因此,现今的计算机视觉利用的图像传感器采用了量子物理进行设计,而光线与不同表面的相互反应这一过程也有这样的量子物理予以解释。注意!爱因斯坦因光电效应获得了1921年的诺贝尔奖,而这一效应描述的正是光线如何与不同表面发生反应,比如说,当你用光线照射金属时,金属会释放出电子。
信号处理示例
神经科学和计算机视觉也在信号处理(不同物理和抽象系统之间处理信息传输的理论和应用)中有所体现。数学和统计方法用于规范、呈现并分析不同的输入与输出,在语音、语言、图像和视频处理方面尤其重要。
人工神经网络倾向于模拟人类的神经系统和大脑功能,它的知识来源于物理、生物和神经科学。这些模型都是学习模型,它们受到生物,尤其是人类生物和神经网络的灵感激发。其主要目的就是评估在有大量输入的情况下,执行某种任务的功能。这些神经网络倾向于模拟真实的神经网络,并被设计成互联的「神经元」系统,彼此之间能够交流。人类的神经通道就是一系列互联的神经元。神经元本身由轴突和树突构成,轴突是传导电脉冲的神经末梢终端;树突是类似树形的结构,将从其他神经细胞接收到的电化学刺激传递给其他细胞体。人工神经网络就模拟这种相互反应和信息传递。比如,如果有神经网络试图检测图像中的数字和字母(与CAPTCHA所做的类似),一组输入神经元会被不同像素激活,有一个主功能来判断哪些是相关的,结果会被传递给其他神经元,并试图将这些字母和数字和已存的信息联系起来。当激活输出神经元,向终端用户输出匹配结果,这一过程便完成了。
一个信号从当前细胞体的轴突传递给下一个细胞的树突
机器学习有两种主要的学习类型。一种是监督式学习,处理有标记的数据。例如,包含不同图像的数据组,每个数据都有注释和描述。另一种则是非监督式学习,处理没有标记的数据,计算机必须找到区分不同数据子集、集群或相似图像的方法。机器学习的过程中,神经网络和类似机器学习算法使用训练集和测试集。计算机在一个数据子集中经过「训练」,而后基于先前加工的数据利用其余的数据检验学习是否有效。这种方法与通过改变参数在不同测试中检验学生们的学习成果的概念相同,与教师或者教授在方程式里使用不同的数字,计算机被输入新图像或者新数据,它要在基于先前学习有注释的数据的基础上,得出正确的结论、近似值或者估计的过程也一样。因此它必须推导出一个特定函数,将其应用于其他数据中,产生新的实例。
再者,非监督式学习试图在无标记的数据中找出隐藏的结构,这主要应用于集群、各种统计分布。没有信号或比较能让电脑来标记数据,它主要用于模式识别和回归分析(一种估算不同变量之间关系的统计方法)。监督式学习类似于学习过程中有老师指导纠正,而非监督式学习则类似于自学过程,没有特定的连续反馈。
在计算机图形中你可以看到,它从三维模型中产生图形数据,而计算机视觉则是倾向于从图形数据中产生三维模型。计算机科学的其他领域也与计算机视觉有关,特别在图像处理和分析的领域。但是,在虚拟/增强现实以及仿真之间有很大的重叠,因为面部检测/识别/追踪技术也经常用于动画电影行业。运动捕捉和头部/面部追踪为动画家提供输入以便其能创造出现实运动和面部表情。面部追踪和识别也经常被用于社交媒体,在各种图像或者视频中识别和标记特殊人物。如今,从多媒体获得的大量跟踪和识别数据能够处理情感监测、性别和种族方面的微妙差异,在捕捉微表情和宏观运动的设计方面更加准确。计算机视觉技术也用于图像恢复,同时在人文艺术方面也有用,因为它可以追踪人眼看不到的痕迹和技术,来识别画作的真伪。
面部追踪实例
因此,主要的方法便是利用上述图形传感元件、雷达、相机以及类似设备进行图像采集,而后进行预处理以便数据收集尽可能无噪音和准确。然后这些图像经过检测、分析、分类来看图像中哪些点和部分与任务相关。例如,如果计算机被训练来查找人脸,它就集中于被测数据的人脸识别,不关心背景环境或者其他物体。最终的要点是处理和决策,基于计算机是否找到匹配的脸而得出最终的分析和确定的输出。
机器视觉是一个与机器人学领域有重叠的计算机视觉的重要研究分支。在这个领域的研究中,计算机视觉的相关技术被用来引导机器人执行动作,并且追踪它们。(科学家们让)机器人全身上下装满了图像传感器、摄像头和各种其他传感器,使它们可以从周围环境中获取数据并且执行(科学家们)想要的任务。机器人的活动建立在边缘探测和物体识别的基础之上,因此它们可以在环境中避开各种障碍顺利活动。各类机器学习算法则可以帮助机器人识别需要得到的图案并且收集想要的数据,例如不同的航天器需要经过训练来收集需要的材料,并且做到去粗取精。
好奇者号在火星表面移动:一张自拍照
比如,火星科学实验室是NASA在2011启动的一项太空探测任务,它在2012年成功地让好奇者号在火星的盖尔陨石坑着陆。好奇者号的目标是探索火星的气候和地理,同时对周围环境进行拍照,世界上最具价值的自拍照也在其中。而其中有名的例子是罗塞塔号,由欧洲太空署发射之后,它和它的着陆器模块菲莱对彗星进行了细致的研究。它执行了第一次成功的彗星着陆,同时也飞过了火星。计算机视觉技术对于这些使命来说至关重要,这既是为了获取来源于图像中的数据,也是为了在崎岖不平的地方进行更加有效的移动。最近的一个例子是一个被称为新视野号的星际空间探测器,它由NASA在2006年发射,并且在今年七月抵达了冥王星。
来自约翰霍普金斯大学以及西南研究所的研究者们与NASA共同合作完成。我们的计算机视觉自2006年至今发展迅猛,它由不同的仪器和模块构成,并且运作良好,能够给我们传回详细数据。比如,新视野号拥有远程考察呈像器,它是设计在可见波长内拥有高分辨率和反应效率的设备,而同时这里还有爱丽丝,一台紫外线呈像光谱仪,它能够在紫外线波长中解析1024个波段从而来确定冥王星的大气组成。新视野号包含着计算机视觉技术以及刻画冥王星以及冥卫一地理形态的物理模型,从而可以绘制冥王星、冥卫一、或是其他柯伊伯带天体的表面构成,并且识别新的天体。
如今,计算机视觉是现代医学最重要的一部分,因为我们利用计算模型来检测其他情况下不可见的疾病或区域。机器人手术在实际中运用的优势在于没有诸如不精确或耗损等不必要的人为因素,因而现在像腹腔镜检查这样的复杂技术往往由机器人辅助。(计算机视觉)在其他领域的应用包括检测肿瘤及类似的恶性病变,不过最重要的运用还是在神经科学本身,利用各种X射线,超声波以及类似的图像生成人体部分(这些人体部分通常情况下难以探测到)三维的、而且往往是放大的模型,以此可以了解更多关于大脑构造的知识。
现如今,很不幸的是大多数应用实际上是军事应用,用以追踪敌方士兵、导弹和武器,用计算机视觉技术来实现精确瞄准和导弹制导,这是唯一一个我们不希望计算机视觉有进展的领域。不过,除非机器人自我觉醒并意识到我们有多么恶劣。类似的应用包括各种自动汽车和无人机,无人机也被用于军事目的,不过现在正被努力重新定位,像亚马逊那样用于投递包裹,但人们通常还是不太喜欢无人机能找到自家后院来。
面部追踪与动画相结合:一个应用实例
娱乐的进步也一样得益于计算机视觉,动画片正变得日益逼真。动画师和制作者基于人和动物的动作表情,利用现实的人脸、头部和动作追踪来表现逼真的动画人物形象。同这些例子相似,特效部门利用这些模型,以人或动物为基础创作奇幻生物,IT公司则创造出虚拟现实小工具,电子游戏和其他增强现实的产品。有些时候这些应用是为了使用户生活更加方便,比如虚拟试穿,像是试妆或试眼镜;有些时候则是为了在观察世界时展现一些附加信息(终结者和铁血战士当中的那些),有些时候它们只是用来娱乐,创造出适于娱乐的虚拟环境。
最新进展包括知识图表、机器人基地和资料集,比如Robp Brain就是一个在线信息图书馆,计算机视觉科学家们可以使用它来让他们的机器人理解它们所看到的周边世界。这可能就是天网的雏形,所以我们此刻仍需非常谨慎。
谷歌的深度梦境
然而,现在最重要的前沿是所谓的深度学习,使用复杂的结构来给高层次的抽象事物建模是它关注的焦点,大多数深度学习尝试做出更好的展示,并从很多没有标签的数据中学习。深度学习有先进的计算机视觉、语音和图像识别技术,而所谓的卷积神经网络(单个神经元堆叠在一起,在可见区域内就像是重叠的,它的灵感来自于现实生活中的生物系统)表现地最为优异。最近一个令人惊异的例子就是谷歌的深度梦境DeepDream,它使用卷积神经网络来发现和增强图像中不同的形态,通过有意的过度处理产生梦境一样的幻觉图片。
现今,有各种各样像Knoxwell 这样的应用,可以让成千上万的用户进行扶手椅考古和分析古希腊陶器上的面部和图案。这样的例子说明计算机视觉的未来不仅在于提高机器学习算法,还在于让人们将这些灵巧的技术用于研究和改善,当然还有娱乐。未来会怎样,让我们拭目以待吧!