1.1 计算机视觉发展概述
1.1.1 计算机视觉的发展之路
* 关键词:计算机视觉 技术发展
* 作 者:王生进
计算机视觉是一个相当新且发展十分迅速的研究领域,现已成为计算机科学的重要研究领域之一。计算机视觉是模拟人类视觉的人工智能技术,用机器来“看”图像、“理解”图像。长期以来,人类持续不断地试图从多个角度去了解生物视觉和神经系统的奥秘,取得的阶段性理论研究成果已经在人们的生产、生活中发挥了不可估量的作用,而计算机场景识别的发展之路才刚刚开始。今天,计算机视觉的应用已渗透到机器人、天文、地理、医学、化学、物理等宏观及微观世界的各个研究领域。有人预言,计算机视觉是实现智能机器人和第五代计算机的关键因素之一。
1. 计算机视觉的起源与发展
计算机视觉是利用电子设备生成对生物视觉模拟的一门学科。计算机视觉是研究如何让计算机能够像人类那样“看”的科学,它用摄像机和计算机代替人眼,使得计算机拥有类似于人类的那种对物体进行分割、分类、识别、跟踪、判别决策的功能。作为当前热点的研究方向,计算机视觉试图建立从图像或多维数据中获取“信息”的人工智能系统。
计算机视觉理论于20世纪70年代由戴维·马尔(David Marr)提出,其将生物视觉视作复杂的信息处理过程,并抽象出3个层次,分别为计算理论、算法和实现。计算理论层次主要研究计算机视觉问题的表达,即如何将计算机视觉任务抽象为数学问题;算法层次则是对照研究数学问题的求解方法;而实现层次是研究算法的物理硬件实现。马尔尤其强调信息表征和信息处理的作用,其提出的视觉计算理论对模式识别和计算机视觉研究影响深远。马尔的理论给计算机视觉的多个研究领域创造了起点,早期的计算机视觉借鉴了统计模式识别的思想。计算机视觉从其诞生之初即为综合性的学科方向,与视觉认知科学、信号处理、计算机科学等多学科密切关联;同时,计算机视觉又是人工智能的重要研究方向,伴随着人工智能的起伏,计算机视觉也经历了多个发展时期。
计算机视觉源于20世纪50年代的统计模式识别,当时的工作主要集中于二维图像分析和识别,如光学字符识别,以及工件表面、显微图片和航空图片的分析和解释等。20世纪60年代,罗伯茨(Roberts)通过编写计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构,并对物体形状及物体的空间关系进行描述。罗伯茨的研究工作开创了以理解三维场景为目的的三维计算机视觉的研究。
20世纪70年代,计算机视觉的研究主要立足于从二维图像中构建三维几何结构,三维结构重建是主要的研究方向。20世纪70年代中期,MIT(Massachusetts Institute of Technology,麻省理工学院)人工智能实验室正式开设了“计算机视觉”课程,由著名学者B.K.P.霍恩(B. K. P. Horn)教授主讲。同时,MIT人工智能实验室吸引了国际上许多知名学者参与计算机视觉的理论、算法、系统设计的研究,马尔教授就是其中的一位。他于1973年应邀在MIT人工智能实验室领导了一个以博士生为主体的研究小组,1977年提出了不同于“积木世界”分析方法的计算视觉理论,该理论在20世纪80年代成为计算机视觉研究领域中的一个十分重要的理论框架。到了20世纪80年代中期,计算机视觉获得了迅速发展,主动视觉理论框架、基于感知特征群的物体识别理论框架等新概念、新方法、新理论不断涌现。计算机视觉的方法论也开始在这个阶段有了一些改变,人们发现,要让计算机理解图像,不一定先要恢复物体的三维结构,而是可以将先验知识和看到的物体特征进行匹配,以实现认知。
20世纪90年代,基于多视几何的视觉理论也得到了迅速发展。统计学习方法引发了一次较大的变革,支持向量机等统计学习方法在计算机视觉中广泛应用。同时,研究者们也开始关注局部特征。与颜色、形状、纹理等底层特征相比,局部特征通常具备一定的视角和光照稳定性,即不随着视角和光照的变化而变化。20世纪90年代末期,一次名为“感知器(Perceptron)”的革命,带动了大数据和机器学习的蓬勃发展。进入21世纪后,计算机视觉与计算机图形学的相互影响日益加深,基于图像的绘制成为研究的热点。
2. 计算机视觉的广泛应用
计算机视觉的概念自提出以来,工业界便注意到了其应用价值。然而,在随后的十多年时间里,由于当时的计算机硬件水平较低,因此制约了计算机视觉技术的发展。随着CCD(Charge Coupled Device,电荷耦合器件)在美国贝尔实验室被发明出来并逐步应用于工业相机传感器中,计算机视觉技术终于走上应用舞台,并在第一时间投入工业机器视觉系统中。20世纪80年代,日本的基恩士(Keyence)及美国的康耐视(Cognex)两家公司共同引领了计算机视觉在工业机器中的发展浪潮。康耐视公司于1982年生产的视觉系统DataMan,是全球第一套工业OCR(Optical Character Recognition,光学字符识别)系统。
伴随着GPU(Graphics Processing Unit,图形处理单元)制造业的迅速发展,以及机器学习尤其是深度学习算法的突飞猛进,计算机视觉技术呈现出豁然开朗的良好发展态势。尽管计算机视觉技术本身的发展远未达到业界所期盼的高度智能水平,但在产业应用上已出现井喷势头,涉及包括工业生产、军事、医疗、安防、智能交通、无人驾驶、虚拟现实等在内的多个社会应用领域,如图1-1所示。在个人消费领域,计算机视觉技术更是延伸到了传统数码产品、无人机、家用机器人等新兴电子消费品中。
图1-1 计算机视觉用于行人检测和高级辅助驾驶系统
3. 视觉机理结合深度学习对计算机视觉的强大推动
计算机视觉进入大众视野并成为科技焦点是最近几年的事情。深度学习这一有力工具的加入,在提高计算机视觉的大众关注度方面功不可没。
一方面,深度学习在一定程度上受到神经科学的启发,试图在大脑神经机理层面上对动物、人类进行模拟,让人们看到了真正意义上实现人工智能的曙光。当一个物体经肉眼成像后,其影像从被视神经接收,到最终被大脑识别、理解,需要经过多层神经归纳与传递。深度学习正是采用了颇为类似的自下而上传递、从敏感细节到感知全局、逐层抽象的做法,如图1-2所示,对图像在一个典型的卷积神经网络模型中不同层的特征进行可视化,能够观察到:低层特征主要响应点、边缘等细节信息,中层特征主要响应纹理、部件等较抽象信息,而高层特征主要响应类别、语义等高度抽象信息。此外,深度学习常用的卷积神经网络结构,与动物视觉神经的机理也有相似之处。
图1-2 卷积神经网络模型中图像不同层的特征
另一方面,深度学习使计算机视觉的能力水平达到了前所未有的高度。2012年,知名科学家杰弗里·辛顿(Geoffery Hinton)带领的团队采用卷积神经网络的方法,在当年的ImageNet大规模图像分类竞赛中,以绝对优势获得第一名。自此以后,在越来越多的计算机视觉细分领域中,深度学习方法的水平大幅超越传统计算机视觉方法,并仍在逐年快速攀升。
深度学习在计算机视觉中初露锋芒,吸引了学术界、工业界甚至金融界的强烈兴趣、密切关注与大量投入。近年来,计算机视觉三大顶级会议(CVPR、ICCV、ECCV)的论文中,半数以上的论文与深度学习相关;国外如苹果等科技巨头均以深度学习为主力方向牵引其在人工智能、计算机视觉方向的战略发展;国内一些科技公司也围绕深度学习打造其核心竞争力。面对这一现象,一些理智的学者、专家也发出了声音。例如,著名华人数学家朱松纯曾多次呼吁,计算机视觉研究人员在深度学习大潮的冲击下,应保持“正本清源”。被誉为“深度学习教父”的辛顿也对深度学习广泛采用的反向传播方法提出了怀疑,认为深度学习存在“推倒重来”的可能。深度学习与计算机视觉仍面临着无数的未知与巨大的挑战,有待学术界和工业界协力探索。
4. 计算机视觉的发展和研究方向
进入21世纪后,大规模数据集的出现和计算机硬件的发展,为基于大数据的计算机视觉研究提供了平台支撑,直至2010年以后深度学习的爆发。Yann LeCun(杨立昆)提出的卷积神经网络、辛顿在Science上发表的深度神经网络训练方法等为深度学习的发展打下了基础。
计算机视觉是人工智能及机器人科学中颇为活跃和卓有成效的前沿领域。计算机视觉的终极目标,是使机器视觉能够像人类视觉一样,具有智能的视觉感知和认知能力,包括实现复杂目标的识别、丰富场景的理解,甚至人类感情流露的察觉。同时,还希望能够将语言与计算机视觉相结合,将视觉的结果加以表达,或完成某项指定的任务,如图1-3所示。截至2018年,人脸识别权威测试库LFW(Labled Faces in the Wild)的准确率已经达到99.8%,超过了人类97%的准确率;ImageNet的目标检测准确率超过66%。2017—2019年,在国际计算机视觉两大顶级会议上发表的论文,在五大前沿领域都有了令人赞叹的新进展,包括低中层视觉、图像描述生成、三维视觉、计算机视觉与机器学习理论、弱监督下的图像识别等。CVPR 2019和ICCV2019上发表的论文和专家报告表明,自然场景理解和与语言结合的计算机视觉,将是今后一个时期计算机视觉研究的发展方向和进一步研究的挑战性课题。自然场景理解和与语言结合的计算机视觉,将搭建起一座跨越人类和机器之间鸿沟的桥梁,方便人与机器之间的交流,为人机和谐的机器系统奠定良好的技术基础。
图1-3 人脸检测结果(左)和图像语义描述(右)
1981年,出生于加拿大的美国神经生物学家戴维·休布尔(David Hubel)和托尔斯滕·威塞尔(Torsten Wiesel),以及罗杰·斯佩里(Roger Sperry)获得了诺贝尔生理学或医学奖。休布尔和威塞尔的主要贡献是“发现了视觉系统的信息处理”——可视皮层是分级的。这个发现,促成了计算机视觉技术在几十年后的突破性发展——从低级的V1区提取边缘特征,到V2区提取形状或者目标的部分等,再到更高层的提取整个目标以及目标的行为等。高层特征是低层特征的组合,从低层到高层的特征表示越来越抽象,语义或意图表现越来越明显。当前深度学习中的深度神经网络就是基于上述机理发展而来的。因此,新的视觉机理和生理结构的发现,将对计算机视觉的发展起到重要作用。
未来计算机视觉研究的重点,将包括(但不限于)以下几个方向:
• 人类视觉机理研究;
• 自然场景理解研究;
• 三维图像重建研究;
• 视频图像理解研究;
• 基于视觉的情感理解研究。
当前计算机视觉领域的研究尚处于发展阶段,在大多数应用场合,计算机视觉与人的视觉相比仍处在较低水平。未来计算机视觉研究的突破性进展,依赖于人对自身视觉机理的深入探索。未来计算机视觉将在工业、交通、遥感、天文气象、医学及军事学等领域有极大的应用前景。