机器视觉(Machine Vision)是人工智能领域中发展迅速的一个重要分支,目前正处于不断突破、走向成熟的阶段。一般认为机器视觉“是通过光学装置和非接触传感器自动地接受和处理一个真实场景的图像,通过分析图像获得所需信息或用于控制机器运动的装置”,可以看出智能图像处理技术在机器视觉中占有举足轻重的位置。
智能图像处理是指一类基于计算机的自适应于各种应用场合的图像处理和分析技术,本身是一个独立的理论和技术领域,但同时又是机器视觉中的一项十分重要的技术支撑。人工智能、机器视觉和智能图像处理技术之间的关系如图1所示。
图1智能图像处理的支撑作用
具有智能图像处理功能的机器视觉,相当于人们在赋予机器智能的同时为机器按上了眼睛,使机器能够“看得见”、“看得准”,可替代甚至胜过人眼做测量和判断,使得机器视觉系统可以实现高分辨率和高速度的控制。而且,机器视觉系统与被检测对象无接触,安全可靠。
1、机器视觉技术
机器视觉的起源可追溯到20世纪60年代美国学者L.R.罗伯兹对多面体积木世界的图像处理研究,70年代麻省理工学院(MIT)人工智能实验室“机器视觉”课程的开设。到80年代,全球性机器视觉研究热潮开始兴起,出现了一些基于机器视觉的应用系统。90年代以后,随着计算机和半导体技术的飞速发展,机器视觉的理论和应用得到进一步发展。
进入21世纪后,机器视觉技术的发展速度更快,已经大规模地应用于多个领域,如智能制造、智能交通、医疗卫生、安防监控等领域。目前,随着人工智能浪潮的兴起,机器视觉技术正处于不断突破、走向成熟的新阶段。
在中国,机器视觉的研究和应用开始于20世纪90年代。从跟踪国外品牌产品起步,经过二十多年的努力,国内的机器视觉从无到有,从弱到强,不仅理论研究进展迅速,而且已经出现一些颇具竞争力的公司和产品。估计随着国内对机器视觉研究、开发和推广的不断深入,赶上和超越世界水平已不是遥不可及的事情了。
常见机器视觉系统主要可分为两类,一类是基于计算机的,如工控机或PC,另一类是更加紧凑的嵌入式设备。典型的基于工控机的机器视觉系统主要包括:光学系统,摄像机和工控机(包含图像采集、图像处理和分析、控制/通信)等单元,如图2所示。机器视觉系统对核心的图像处理要求算法准确、快捷和稳定,同时还要求系统的实现成本低,升级换代方便。
图2 机器视觉系统示例
2、智能图像处理技术
机器视觉的图像处理系统对现场的数字图像信号按照具体的应用要求进行运算和分析,根据获得的处理结果来控制现场设备的动作,其常见功能如下:
(1)图像采集
图像采集就是从工作现场获取场景图像的过程,是机器视觉的第一步,采集工具大多为CCD或CMOS照相机或摄像机。照相机采集的是单幅的图像,摄像机可以采集连续的现场图像。就一幅图像而言,它实际上是三维场景在二维图像平面上的投影,图像中某一点的彩色(亮度和色度)是场景中对应点彩色的反映。这就是我们可以用采集图像来替代真实场景的根本依据所在。
如果相机是模拟信号输出,需要将模拟图像信号数字化后送给计算机(包括嵌入式系统)处理。现在大部分相机都可直接输出数字图像信号,可以免除模数转换这一步骤。不仅如此,现在相机的数字输出接口也是标准化的,如USB、VGA、1394、HDMI、WiFi、Blue Tooth接口等,可以直接送入计算机进行处理,以免除在图像输出和计算机之间加接一块图像采集卡的麻烦。后续的图像处理工作往往是由计算机或嵌入式系统以软件的方式进行。
(2)图像预处理
对于采集到的数字化的现场图像,由于受到设备和环境因素的影响,往往会受到不同程度的干扰,如噪声、几何形变、彩色失调等,都会妨碍接下来的处理环节。为此,必须对采集图像进行预处理。常见的预处理包括噪声消除、几何校正、直方图均衡等处理。
通常使用时域或频域滤波的方法来去除图像中的噪声;采用几何变换的办法来校正图像的几何失真;采用直方图均衡、同态滤波等方法来减轻图像的彩色偏离。总之,通过这一系列的图像预处理技术,对采集图像进行“加工”,为体机器视觉应用提供“更好”、“更有用”的图像。
(3)图像分割
图像分割就是按照应用要求,把图像分成各具特征的区域,从中提取出感兴趣目标。在图像中常见的特征有灰度、彩色、纹理、边缘、角点等。例如,对汽车装配流水线图像进行分割,分成背景区域和工件区域,提供给后续处理单元对工件安装部分的处理。
图像分割多年来一直是图像处理中的难题,至今已有种类繁多的分割算法,但是效果往往并不理想。近来,人们利用基于神经网络的深度学习方法进行图像分割,其性能胜过传统算法。
(4)目标识别和分类
在制造或安防等行业,机器视觉都离不开对输入图像的目标进行识别和分类处理,以便在此基础上完成后续的判断和操作。识别和分类技术有很多相同的地方,常常在目标识别完成后,目标的类别也就明确了。近来的图像识别技术正在跨越传统方法,形成以神经网络为主流的智能化图像识别方法,如卷积神经网络(CNN)、回归神经网络(RNN)等一类性能优越的方法。
(5)目标定位和测量
在智能制造中,最常见的工作就是对目标工件进行安装,但是在安装前往往需要先对目标进行定位,安装后还需对目标进行测量。安装和测量都需要保持较高的精度和速度,如毫米级精度(甚至更小),毫秒级速度。这种高精度、高速度的定位和测量,倚靠通常的机械或人工的方法是难以办到的。在机器视觉中,采用图像处理的办法,对安装现场图像进行处理,按照目标和图像之间的复杂映射关系进行处理,从而快速精准地完成定位和测量任务。
(6)目标检测和跟踪
图像处理中的运动目标检测和跟踪,就是实时检测摄像机捕获的场景图像中是否有运动目标,并预测它下一步的运动方向和趋势,即跟踪。并及时将这些运动数据提交给后续的分析和控制处理,形成相应的控制动作。图像采集一般使用单个摄像机,如果需要也可以使用两个摄像机,模仿人的双目视觉而获得场景的立体信息,这样更加有利于目标检测和跟踪处理。
3、机器视觉的应用
如图3所示,机器视觉应用广泛,如安防、制造、教育、出版、医疗、交通、军事领域等。在这些机器数额的应用中,智能图像处理都是不可或缺的,这里仅简要介绍其中几个方面的应用。
图3 常见机器视觉应用场合
(1)智能制造
为了实现中国智能制造2025这一宏伟目标,离不开机器视觉。例如,在智能图像处理一直处于领先地位的广东迅通科技股份有限公司(以下简称“迅通科技”)针对这一需求开发出了机器视觉分析仪平台,见图4。其中,迅通科技为某知名汽车厂商装配流水线开发的车门限位器自动定位、检测和识别的系统,见图5。该系统通过智能图像识别方式,自动检测型号是否正确,定位是否准确,完全代替了人工操作,检测准确率达到100%。此前,每个工位需要4个工人用眼睛来检查、定位16种型号限位器,员工不仅很容易疲劳,还时常出现差错。
图4 迅通机器视觉分析仪平台
图5 工件识别/定位检测系统(现场)
(2)教育考试
考试试卷时常发现因排版或印刷错误影响学生考试,利用智能图像处理技术,机器自动对印刷后的试卷和原版试卷进行比对,发现不一致之处,会自动提示并报警,完全替代之前只能通过人工对试卷进行校验。
(3)出版印刷
和教育考试类似,专业出版印刷厂由于印刷的图书、报纸杂志,以及承接来自企业产品包装和宣传资料的种类多,数量大,排版和印刷中经常出错。为此,需安排不少专业人员进行校对,耗费大量的资金和时间。通过利用智能图像处理技术进行自动校对,既提高了校对准确度,又缩短了校对时间,降低了印刷成本,缩短了出版物的交付周期。
(4)安防监控
这是当前备受机器视觉关注的一个领域。机器视觉打破了传统视频监控系统的限制,增加了系统的智能,使得智能视频分析得以逐步实现。以公共场所的视频监控为例,通过运用机器视觉技术,可以实现对可疑人物的自动检测、人脸识别、实时跟踪,必要时还可以实现多摄像机接连跟踪,同时发出告警,存储现场信息。
(5)智能交通
机器视觉在交通领域有着广泛的应用。例如,在高速公路上及卡口处,对来往车辆进行车型、牌照等识别,甚至对行驶车辆的违规行为进行识别。在汽车上对驾驶员面部图像进行分析,判断驾驶员是否处于疲劳驾驶状态。再如,无人驾驶汽车借助于机器视觉技术,使用摄像头、激光/毫米波/超声波雷达、GPS等感知道路环境信息,自动规划和控制车辆的安全行驶。
有数据显示,2016年全球机器视觉系统的市场规模约46亿美元, 2017年约50亿美元,预计2018年达到55亿美元,年增长率为10%左右。中国机器视觉市场的增长是从2010年开始的,2017年市场规模约68亿元,预计到2020年或达780亿元,市场增长率将超过100%。
4、技术瓶颈及今后的发展
在机器视觉的智能图像处理技术的发展中,还存在不少技术瓶颈,如:
(1)稳定性:某种处理方法往往在研究和开发中表现良好,但在复杂多变的应用环境中,却不时地出现问题。例如人脸识别系统,在目标配合时识别率可高达95%以上,但在实际监控环境下,识别率就会大大下降。
(2)实时性:如果图像的采集速度、处理速度较慢,再加上新近引入的深度学习类算法,加大了系统实时处理的难度,跟不上机器运行和控制的节奏。
(3)准确性:机器视觉系统要求图像识别和测量的准确性接近100%,任何微小的误差都有可能带来不可预测的后果。例如目标定位的误差会使装配出来的设备不符合要求。
(4)系统能力:目前的嵌入式图像处理系统,存在芯片的计算能力不足,存储空间有限等问题,常常不能满足运算量较大的图像处理运算,如神经网络的迭代运算,大规模矩阵运算等。
今后机器视觉中智能图像处理的发展主要体现在以下几个方面:
(1)算法:传统算法继续不断有所突破,新一波人工智能浪潮带来不少新的性能优良的图像处理算法,如深度学习(DL),卷积神经网络(CNN),生成对抗网络(GAN),等等。
(2)实时性:出现更多结构新颖、资源充足、运算快速的硬件平台支撑,例如基于多CPU、多GPU的并行处理结构的计算机,海量存储单元等。
(3)嵌入式:新的高速的信号处理器阵列,超大规模FPGA芯片。
(4)融合处理:从单图像传感器发展到多传感器(多视点)的融合处理,可更加充分地获取现场信息。还可融合多类传感器,如图像传感器、声音传感器、温度传感器等共同完对现场目标定位、识别和测量。
总之,无论是“中国制造2025”还是“工业4.0”都离不开人工智能,离不开计算机视觉,而智能图像处理是机器视觉的核心技术,随着图像处理水平的不断提高,一定会有力地推动机器视觉的迅速发展。
更多是视觉资讯尽在“新机器视觉”微信公众号~