浅谈计算机视觉的应用与发展

姓名:杜敏刚      学号:17021211253

嵌牛导读】计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。由于计算机视觉学在工农业生产、地质学、天文学、气象学、医学及军事并学等领域有着极大的潜在应用价值,所以它在国际上越来越受人重视。本文简要地介绍了计算机视觉学结构和研究内容,它同附近学科的关系,计算机视觉研究中面临的技术难点以及计算机视觉学的历史,现状和研究动向。

【嵌牛鼻子】计算机视觉;图像;应用

【嵌牛提问】什么是计算机视觉?计算机视觉技术有哪些应用?

【嵌牛正文】

1绪论

计算机视觉学是自二十世纪六十年代中期迅速发展起来的一门新学科。它是个边缘学科,集众家之所长,是个工程性很强的技术,主要需要有空间几何、矩阵分析、光电技术、图像处理、应用数学、离散数学及计算机技术等等各个方面的知识,才能正确的指导视觉系统的建模、解模及实际工程问题的解决方法。计算机视觉系统一般有光源、摄像机、采集卡及PC软件系统等组成,可以完成图像的采集与处理、目标的识别功能,视觉系统的结构一般是从系统的模型的角度理解的。

计算机视觉既是工程领域,也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科,它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学,神经生理学和认知科学等。

计算机视觉学所研究的对象,简单地说就是研究如何让计算机通过图象传感器或其它光传感器来感知、分析和理解周围环境。

人类感知外界环境主要通过视觉,听觉和触觉等四大感觉系统。其中视觉系统是最复杂的。人类从外界获得的信息中视觉信号量最大。

模仿人类的视觉系统,计算机视觉系统中信息的处理和分析大致可以分成两个阶段:图象处理阶段又称视觉处理中的低水平和中水平阶段;图象分析、理解阶段又称视觉处理中的高水平处理阶段。

在图象处理阶段,计算机对图象信息进行一系列的加工处理,这主要是:

1、校正成象过程中系统引进的光度学和几何学的畸变,抑制和去除成象过程中引进的噪声—统称为图象的恢复。

2、从图象信息如亮度分布信息中提取诸如边沿信息,深度信息图象点沿轴方向的尺度,表面三维倾斜方向信息等反映客观景物特征的信息。

3、根据抽取的特征信息把反映三维客体的各个图象基元,如轮廓、线条、纹理、边缘、边界、物体的各个面等从图象中分离出来,并且建立起各个基元之间的拓朴学上的和几何学上的关系—称之基元的分割和关系的确定。

在图象分析和理解阶段,计算机根据事先存贮在数据库中的预知识模型,识别出各个基元或某些基元组合所代表的客观世界中的某些实体称之为模型匹配以及根据图象中各基元之间的关系在预知识的指导下得出图象所代表的实际景物的含义,得出图象的解释或描述。

必须强调,预知识在视觉系统中起着相当重要的作用。在预知识库中存放着各种实际可能遇到的物体的知识模型,和实际景物中各种物体之间的约束关系。计算机的作用是根据被分析的图象中的各基元及其关系,利用预知识作为指导,通过匹配,搜索和推理等手段,最终得到对图象的描述。在整个过程中预知识时刻提供处理的样板和证据。每一步的处理结果随时同预知识进行对比。有时,处理的中间结果和最终结果还要馈送给预知识库作为知识的更新和积累。

2图像分割研究

图像分割是图像处理与机器视觉的基本问题之一。其要点是:把图像划分成若干互不交迭区域的集合。这些区域要么对当前的任务有意义,要么有助于说明它们与实际物体或物体的某些部分之间的对应关系。图像分割的应用十分广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。例如,在遥感应中,合成孔径雷达图像中目标的分割;遥感云图中不同云系和背景分布的分割;在交通图像分析中,把车辆目标从背景中分割出来。在这些应用中,分割通常是为了进一步对图像进行分析、识别、压缩编码,分割的准确性直接影响后续任务的有效性。

一般来讲,分割出的区域需同时满足均匀性和连通性的条件。其中均匀性是指在该区域中的所有象素点都满足基于灰度、纹理、彩色等特征的某种相似性准则;连通性是指在该区域内存在任意两点的路径。尽管图像处理和机器视觉界的研究者们为此付出了长期的努力,符合以上两点的通用性分割仍面临着巨大的困难;大部分研究成果都是针对某一类型图像、某一具体应用的分割。可以概括为以下内容。

2.1数据驱动的分割

常见的数据驱动分割包括基于边缘检测的分割、基于区域的分割、边缘与区域相结合的分割等。对于基于边缘检测的分割,其基本思想是先检测图像中的边缘点,再按一定策略连接成轮廓,从而构成分割区域。难点在于边缘检测时抗噪声性能和检测精度的矛盾,若提高检测精度,则噪声产生的伪边缘会导致不合理的轮廓;若提高抗噪声性能,则会产生轮廓漏检和位置偏差。为此,人们提出各种多尺度边缘检测方法,根据实际问题设计多尺度边缘信息的结合方案,以较好地兼顾抗噪声性能和检测精度。

基于区域的分割的基本思想是根据图像数据的特征将图像空间划分成不同的区域。常用的特征包括:直接来自原始图像的灰度或彩色特征;由原始灰度或彩色值变换得到的特征。方法有阈值法、区域生长法、聚类法、松弛法等。

边缘检测能够获得灰度或彩色值的局部变化强度,区域分割能够检测特征的相似性与均匀性。将两者结合起来,通过边缘点的限制,避免区域的过分割;同时通过区域分割补充漏检的边缘,使轮廓更加完整。例如,先进行边缘检测与连接,再比较相邻区域的特征(灰度均值、方差),若相近则合并;对原始图像分别进行边缘检测和区域生长,获得边缘图和区域片段图后,再按一定的准则融合,得到最终分割结果。

2.2模型驱动的分割

常见的模型驱动分割包括基于动态轮廓(Snakes)模型、组合优化模型、目标几何与统计模型。Snakes模型用于描述分割目标的动态轮廓。由于其能量函数采用积分运算,具有较好的抗噪声性,对目标的局部模糊也不敏感,因而适用性很广。但这种分割方法容易收敛到局部最优,因此要求初始轮廓应尽可能靠近真实轮廓。

近年来对通用分割方法的研究倾向于将分割看作一个组合优化问题,并采用一系列优化策略完成图像分割任务。主要思路是在分割定义的约束条件之外,根据具体任务再定义一个优化目标函数,所求分割的解就是该目标函数在约束条件下的全局最优解。以组合优化的观点处理分割问题,主要是利用一个目标函数综合表示分割的各种要求和约束,将分割变为目标函数的优化求解。由于目标函数通常是一个多变量函数,可采用随机优化方法。

基于目标几何与统计模型的分割是将目标分割与识别集成在一起的方法,常称作目标检测或提取。基本思想是将有关目标的几何与统计知识表示成模型,将分割与识别变为匹配或监督分类。常用的模型有模板、特征矢量模型、基于连接的模型等。这种分割方法能够同时完成部分或全部识别任务,具有较高的效率。然而由于成像条件变化,实际图像中的目标往往与模型有一定的区别,需要面对误检与漏检的矛盾,匹配时的搜索步骤也颇为费时。

2.3图像分割的半自动方法

从人工参与程度来看,图像分割可分为人工、半自动、自动等三种类型。其中人工分割完全由操作者利用鼠标勾画出分割区域的轮廓,费时费力,且容易受操作者主观因素的影响,重复性差。自动分割不需人机交互,但适应性差,很难实现对一批图像同时获得满意的分割效果。半自动分割将人机交互与自动分割相结合,能够适应不同的图像和需求,且有效降低计算复杂度。目前半自动分割中人机交互的方式有:勾画目标的大致轮廓,构成自动分割的初始化;根据特定的图像和任务调整算法参数;在分割过程中加入人工交互节等。总之,从实用化的角度看,自动分割仍是长期努力的方向。目前更为现实的是在自动分割前或分割过程中加入人机交互的半自动分割。其发展方向为尽可能少和简便的人机交互。可见,图像分割是图像处理和机器视觉必不可少的重要环节,也是图像理论发展的瓶颈之一。随着计算机速度与容量的快速进展,图像处理与机器视觉实用化系统硕果累累。例如,基于内容的图像检索系统、智能监视系统、视觉引导的智能交通系统、手写体字符/人脸/指纹/虹膜识别系统等。然而有关的理论研究并没有取得突破性进展。

3视觉技术的研究

人类很多研究都是以延伸人类能力为目的的,早期的工作是在体力上延伸,计算机发明以来,就拓展到对人类脑力和感知能力的延伸上。对人类视觉感知能力的计算机模拟导致了计算机视觉的产生。计算机视觉也经常被称为图像理解,是指研究完成一项任务所需的视觉信息及如何从图像中获取这些信息的研究领域。其基本目的有三个:

(1)根据一幅或多幅二维投影图像计算出观察点到目标物体的距离;

(2)根据一幅或多幅二维投影图像计算出观察点到目标物体的运动参数;

(3)根据一幅或多幅二维投影图像计算出观察点到目标物体的表面物理特性。要达到的最终目的是实现对于三维景物世界的理解,即实现人的视觉系统的某些功能。也就是利用二维投影图像来重构三维物体的可视部分。

3.1计算机视觉研究的对象与方法

3.1.1以模型世界为主要对象的视觉基本方法研究

这个阶段以Roberts的开创性工作为标志。在Roberts的工作中引入了三维物体与二维成像的关系,采用了一些简单的边缘特征提取方法并引入了组合线段的方法。这些早期的工作对视觉的发展起了促进作用,但对于稍微复杂的景物便难于奏效。

为他对三维关系的分析仅仅是靠简单的边缘线段的约束关系,并没有充分考虑人类或其他动物视觉系统感知三维空间关系的方式。

3.1.2以计算理论为核心的视觉模型研究

20世纪70年代开始,对计算机视觉的研究进入更为理性化的阶段,主要集中于各种本征特性的恢复,包括三维形状、运动、光源等的恢复。主要出发点是从生理学、光学和射影几何的方法出发,研究成像及其逆问题。在这一阶段中,以Marr为代表的一些研究者提出了以表示为核心、以算法为中间转换过程的一般性视觉处理模型。在其理论中强调表示的重要性以及从不同层次上去研究信息处理问题,在计算理论和算法实现上又特别强调计算理论的重要性。在三维信息的感知方面,根据人类感知深度的不同提出了一系列ShapefromX的方法。

3.2计算机视觉的应用领域

计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及智能人机接口等。

早期进行数字图像处理的目的之一就是要通过采用数字技术提高照片的质量,辅助进行航空照片和卫星照片的读取判别与分类。由于需要判读的照片数量很多,于是希望有自动的视觉系统进行判读解释,在这样的背景下,产生了许多航空照片和卫星照片判读系统与方法。自动判读的进一步应用就是直接确定目标的性质,进行实时的自动分类,并与制导系统相结合。目前常用的制导方式包括激光制导、电视制导和图像制导,在导弹系统中常常将惯性制导与图像制导结合,利用图像进行精确的末制导。

工业机器人的手眼系统是计算机视觉应用最为成功的领域之一,由于工业现场的诸多因素,如光照条件、成像方向均是可控的,因此使得问题大为简化,有利于构成实际的系统。与工业机器人不同,对于移动机器人而言,由于它具有行为能力,于是就必须解决行为规划问题,即是对环境的了解。随着移动式机器人的发展,越来越多地要求提供视觉能力,包括道路跟踪、回避障碍、特定目标识别等。目前移动机器人视觉系统研究仍处于实验阶段,大多采用遥控和远视方法。

在医学上采用的图像处理技术大致包括压缩、存储、传输和自动/辅助分类判读,此外还可用于医生的辅助训练手段。与计算机视觉相关的工作包括分类、判读和快速三维结构的重建等方面。长期以来,地图绘制是一件耗费人力、物力和时间的工作。以往的做法是人工测量,现在更多的是利用航测加上立体视觉中恢复三维形状的方法绘制地图,大大提高了地图绘制的效率。同时,通用物体三维形状分析与识别一直是计算机视觉的重要研究目标,并在景物的特征提取、表示、知识的存储、检索以及匹配识别等方面都取得了一定的进展,构成了一些用于三维景物分析的系统。

近年来,基于生物特征(biometrics)的鉴别技术得到了广泛重视,主要集中在对人脸、虹膜、指纹、声音等特征上,这其中大多都与视觉信息有关。与生物特征识别密切相关的另一个重要应用是用于构成智能人机接口。现在计算机与人的交流还是机械式的,计算机无法识别用户的真实身份,除键盘、鼠标外,其他输入手段还不成熟。利用计算机视觉技术可以使计算机检测到用户是否存在、鉴别用户身份、识别用户的体势(如点头、摇头)。此外,这种人机交互方式还可推广到一切需要人机交互的场合,如入口安全控制、过境人员的验放等。

4对计算机视觉研究的认识

计算机视觉研究经历了近40年的过程,仍面临许多问题。主要由于这一方向是多学科的交叉与结合,同时视觉是一个涉及生理、心理的复杂过程,不仅与眼睛有关,还和大脑的推理、学习有关。研究计算机视觉的目的是要实现对人类视觉的模拟和延伸。对于人类而言,视觉是一个轻而易举的功能,对机器却不同。视觉过程很难用类似于问题求解的方法符号化。随着计算机科学领域中对定量研究的重视,这种状况会得到改善。在计算机视觉的研究过程中,应考虑将功能模拟与认知模拟相结合。人类延伸其他能力的过程中,功能模拟起到了主要作用,但视觉是涉及心理和生理两方面的过程,因此必须在功能模拟的同时重视认知模拟。

计算理论的进步与感知手段的改进有助于计算机视觉的研究。在计算机视觉中计算理论占有十分重要的地位,计算理论的进步,新的计算模型的提出可以解决以往一些困难的问题;另一方面,感知手段的进步也可以起到同样的作用。采用主动视觉可从另一个侧面去处理面对的视觉问题。要实现完整的视觉系统,视觉知识的获取、管理和利用是必不可少的。一个相对完备的视觉系统同时也是一个知识管理系统,在视觉过程中对一幅图像的理解需要大量的关于任务领域的知识,这些知识不同于问题求解中的知识可以明确的显性表示,而且人类获取信息的80%是通过视觉得到的,因而这些知识涉及面之广难以预测,因此视觉系统中的知识管理是一个重要问题。

从以往的研究看,过去的几十年虽然提出、解决了一些问题,但是由于视觉问题的特殊性和复杂性,还有大量的问题需要研究。研究的重点包括对新方法、新手段的探索。当然,在原有问题上采用新的描述方法、求解手段也是一个可能的突破点。在视觉领域中多数的问题不是问题本身正确与否,而是描述是否恰当以及求解是否有效的问题,因而描述方式、求解手段的探索是十分重要的。总之,随着对定量研究的重视,新的描述方式、求解手段的研究,以及感知手段的改进,计算机视觉的研究必将迎来一个更加繁荣的时代。

参考文献

[1]陈熙霖.计算机视觉:算法与系统原理,清华大学出版社,2000

[2]高满屯.计算机视觉研究中的投影理论和方法,西北工业大学出版社,1998

[3]马颂德,张正友.计算机视觉—计算理论与算法基础,科学出版社,1998

[4]章毓晋.图像工程下-图像理解与计算机视觉,清华大学出版社,2000

[5] (美)福赛思.计算机视觉:一种现代方法,电子工业出版社,2004

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容