应用场景
人类严重依赖五官来解释我们周围的世界。 虽然五官都很重要,但我们在阅读,驾驶或烹饪等大多数日常工作中都非常依赖视力。视觉是如此重要,它自然也是人类想要在机器中重建的东西之一。
自动驾驶能减少人为错误,可以不知疲倦地工作24 * 7运作。 计算机视觉是跨学科的科学领域,用计算机处理图像和视频,并以与人类思维相同的方式提取细节。
在过去的十年中,计算机视觉研究一直处于快速发展阶段,尽管没有机器能够模仿人类的大脑,但计算机视觉已经帮助我们取得了一些非凡的成果。 具有强大的图像模式识别能力的人工神经网络广泛用于计算机视觉算法中,因为与传统的机器学习方法相比,神经网络提供了更好的精度。
真实世界的应用
在现代,计算机视觉已经介入领域,仅减少人力,还为我们提供了解决方案,而这些任务永远无法通过人类视觉的限制来解决。
医疗
计算机视觉广泛用于疾病的诊断,比如处理X射线,MRI和其他医学图像等,并且已经证明在精确度方面与常规人类医生一样有效。 比如肺炎,脑肿瘤,糖尿病,帕金森病,乳腺癌等。
借助最先进的图像处理技术和计算机视觉,可以对任何疾病进行早期诊断,从而压缩它们发生的可能性或允许在疾病的早期阶段进行治疗。
计算机视觉还帮助研究人员监测患者对其处方治疗的依赖性,从而减少临床试验中的损耗。 计算机视觉不仅有助于诊断,还通过分析对组织的损伤和监测患者的失血在手术中起作用。
汽车
自动驾驶在很大程度上依赖于计算机视觉,作为理解驾驶环境的手段,包括探测障碍物,行人,车道和可能的碰撞路径。
计算机视觉现在也用于辅助驾驶。 它监控驾驶员的正确行为和驾驶模式,以减少因疏忽造成的事故发生的可能性。 包括检查他是不是轻率驾驶,酒精或毒品的影响,以及疲劳驾驶。
计算机视觉还是在汽车的自动化生产中起作用,比如拒绝装配线上的有缺陷的部件。
安全和监督
如今,地铁站,道路,学校医院等都有监控,计算机视觉可自动对视频进行分析。它能够检测诸如暴力,盗窃,非法侵入和人脸识别等,它还可以用于在机场和火车站等拥挤区域找到罪犯。
天文学
我们所有关于宇宙的知识都源于光子的测量,这些光子主要是图像,因为我们的宇宙是如此巨大,它收集的数据也很大,手动研究这些数据是不可能的。通过使用计算机视觉,我们可以以更快的速度研究这些数据,到目前为止计算机视觉用于发现新的行星和天体,这包括系外行星成像,恒星和星系分类等应用。
农业
在农业中,计算机视觉用于发现正在使用的种子是否健康。 使用高光谱或多光谱传感器,还可以确定作物的健康状况。 它还可以帮助确定土壤肥沃,水体存在的区域,从而确定哪些区域适合农业。
计算机视觉还使机器人能够执行收获,种植,除草等过程。 依赖机器视觉的自主式拖拉机用于减轻对农民的压力。 计算机视觉还可用于识别牲畜并监测其在其一生中的生长情况,以提供有关收获进展的重要信息。
工业
在工业中,计算机视觉用于装配线,用于计数批次,检测损坏的部件,检查成品,以发现使用人类视觉无法识别的产品中的微观级别缺陷并提高工厂的安全性环境。 在制造任务中,读取条形码是必不可少的,因为它们为产品提供了独特的识别,在一天内读取数千个条形码对人类来说不是一件容易的事,但使用计算机视觉可以在几分钟内轻松完成。
卫星图像
计算机视觉应用于卫星图像,以检测洪水,海啸,飓风和山体滑坡等自然灾害。 卫星图像也用于分析重点区域的污染和空气质量指数。 它可用于检测内陆的各种材料,最近在采矿业中使用计算机视觉,已经开始探测具有很高的区域原油或矿物的可能性。
算法
卷积神经网络(CNN)
大多数计算机视觉任务都围绕着CNN架构,因为大多数问题的基础是将图像分类为已知标签。 算法用于物体检测,如 SSD和 YOLO是围绕CNN构建的。
人工神经网络对于传统机器学习算法不可能完成的任务非常有用,但是在处理具有完全连接的隐藏层的图像的情况下,很长时间才能训练,因为CNN用于首先减小图像的大小使用卷积层和pooling层,然后将这些减少的数据馈送到完全连接的层。 CNN不仅用于计算机视觉,还用于自然语言处理中的文本分类。
我们来谈谈CNN的层次。
参考资料
- 讨论qq群630011153 144081101
- 本文最新版本地址
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- 2018最佳人工智能机器学习工具书及下载(持续更新)
卷积层
为了执行卷积运算,使用可以指定大小的滤波器(较小的矩阵),该滤波器在整个图像矩阵上移动。滤波器的任务是将其值乘以原始像素值。 所有这些乘法都是概括的。 最后得到一个数字。 它进一步向右移动n个单位(可以变化)执行类似的操作。 在将滤波器穿过所有位置之后,获得矩阵,但是小于输入矩阵。
非线性层
它在每个卷积层之后添加。 它使用激活功能,为数据带来非线性。 非线性意味着输出的变化与输入的变化不成比例,我们要求这种非线性就像网络是线性的一样,添加多个层没有意义(多个线性层相当于单个层) 。 通过增加非线性,我们可以制作能够在图像中找到新模式的复杂网络。 激活函数可以是ReLu,Tanh或任何其他非线性激活函数。 阅读更多
Pooling层
Pooling层用于进一步缩小矩阵的尺寸。 最常见的形式是具有2×2大小的过滤器的Pooling层,在输入中的每个深度切片处沿着宽度和高度施加2个下行样本的步幅,丢弃75%的激活。 Pooling层通常用于通过使用Max pooling函数来选择最重要的像素,Max pooling函数仅选择滤波器中存在的最高值像素,这减少了训练所需的计算量,因此显着减少了训练神经网络所花费的时间。
完全连接的图层
与multi-layer perceptron neural network (MLP)相同,唯一的区别是MLP的输入层从CNN的前面的层中获取输入。
基于CNN的架构
许多基于CNN的架构已被用于最大化图像分类的性能。 这些架构是着名的架构,讨论如下:
AlexNet(2012)
AlexNet 由SuperVision小组设计,由Alex Krizhevsky,Geoffrey Hinton和Ilya Sutskever组成。 它是2012年ImageNet LSVRC-2012竞赛的获胜者,该竞赛是专注于图像分类的年度竞赛,错误率为15.3%。AlexNet使用Relu(Rectified linear unit)代替tanh激活来增加非线性,从而将速度提高6倍,同时提高精度。它还使用了dropout而不是正则化来处理过度拟。AlexNet的另一个特性是它有重叠池来减少网络的大小。 它将前1和前5错误率分别降低了0.4%和0.3%。
AlexNet有5个卷积层和3个完全连接的层,在每个卷积层和完全连接的层之后存在的非线性层中,使用Relu激活函数。 仅在第一个和第二个完全连接的层之前应用Dropout。 该网络拥有6230万个参数,并且在前向传输中需要11亿个计算单元。
在AlexNet的论文中,规定网络需要在五到六天内完成90个时期才能在两个GTX 580 GPU上进行训练。使用学习率为0.01的随机梯度下降,使用动量0.9和权重衰减0.0005。 一旦准确度达到高峰,学习率就会除以10。 在训练过程中,学习率降低了3倍。
GoogLeNet/Inception(2014)
GoogLeNet 是 ILSVRC 2014的赢家,它实现了前5个错误率6.67%,他使用了受LeNet启发的CNN。它的网络中间包含1×1卷积,全局平均池用于网络的末端而不是使用完全连接的层。 它还使用了Inception模块,对于相同的输入和堆叠所有输出具有不同尺寸/类型的卷积。 它还使用批量标准化,图像失真和RMSprop。 在GoogLenet中,使用1×1卷积作为降维模块来减少计算,通过减少计算瓶颈,可以增加深度和宽度。 GoogLenet的架构由22层深的CNN组成,但参数数量从6000万(AlexNet)减少到400万。
VGGNet(2014)
VGGNet是由牛津大学的VGG(Visual Geometry Group)发明的,虽然VGGNet是ILSVRC 2014在分类任务中的亚军,它仍然显示出对以前网络的重大改进。 VGGNet由16个卷积层组成,架构非常统一,因此非常吸引人。 与AlexNet类似,只有3×3个卷积,但有很多过滤器。 它主要用于从图像中提取特征。 VGG-16用作对象检测算法SSD的基础,没有完全连接的层。
RESNET(2015年)
Residual Neural Network (ResNet)赢得了2015年的ILSVRC。它实现了前5个错误率3.57%,超过了该数据集的人类级别表现。 它引入了由152层skip 连接(gated units or gated recurrent units) 组成的架构,并具有大批量标准化功能。 ResNet的整个想法是为了解决渐变渐渐消失的问题。 通过保留梯度,消失梯度是在具有大量层的网络中发生的问题,因为第一层的权重无法通过误差梯度的反向传播正确更新( (the chain rule multiplies error gradient values lower than one and then, when the gradient error comes to the first layers, its value goes to zero)。
计算机视觉的挑战
计算机视觉在很大程度上取决于图像质量,使用相机类型,拍摄图像/视频的时间,以及相机是否稳定等因素。
面部识别和视频分析等应用面临着巨大的问题,因为CCTV的质量非常低,不能用来区分人。 在物体检测的情况下,物体的大小在模型的准确性中起重要作用,不易检测小物体,即使检测到它们,检测也不稳定。 它还受到物体变形,图像背景和遮挡程度的影响。
计算机视觉障碍的另一个因素是模型的知识,如果训练集中没有的对象或图像,模型将显示不正确的结果。 例如,武器检测系统只接受过枪支和刀具的训练,部署在火车站恐怖分子带来的炸弹检测不到,从而危及生命。