名奢网 名表 名表日报 查看内容

干货|山世光-基于深度学习的目的检测技术停顿与瞻望

2023-1-15 20:48| 发布者: 夏梦飞雨| 查看: 146| 评论: 0

放大 缩小
简介:来源: 全球人工智能概要:2000年人脸检测技术开端成熟起来之后,就呈现了相关的实践应用,例如数码相机中的人脸对焦的功用,照相的时分,相机遇自动检测人脸,然后依据人脸的位置把焦距调整得更好。1. Viola-Jones ...

来源: 全球人工智能


概要:2000年人脸检测技术开端成熟起来之后,就呈现了相关的实践应用,例如数码相机中的人脸对焦的功用,照相的时分,相机遇自动检测人脸,然后依据人脸的位置把焦距调整得更好。

干货|山世光-基于深度学习的目的检测技术停顿与瞻望


1. Viola-Jones人脸检测器


物体检测在整个计算机范畴里,比较胜利的一个例子,就是在大约2000年前后呈现的Viola-Jones人脸检测器,其使得物体检测相比而言成了一项较为成熟的技术。这个措施基本的思绪就是滑动窗口式的,用一个固定大小的窗口在输入图像中止滑动,窗口框定的区域会被送入到分类器,去判别是人脸窗口还是非人脸窗口。滑动的窗口其大小是固定的,但是人脸的大小则多种多样,为了检测不同大小的人脸,还需求把输入图像缩放到不同大小,使得不同大小的人脸能够在某个尺度上和窗口大小相匹配。这种滑动窗口式的做法有一个很明显的问题,就是有太多的位置要去检查,去判别是人脸还是非人脸。


判别是不是人脸,这是两个分类问题,在2000年的时分,采用的是AdaBoost分类器。中止分类时,分类器的输入用的是Haar特征,这是一种十分简单的特征,在图上能够看到有很多黑色和白色的小块,Haar特征就是把黑色区域一切像素值之和减去白色区域一切像素值之和,以这个差值作为一个特征,黑色块和白色块有不同的大小和相对位置关系,这就构成了很多个不同的Haar特征。AdaBoost分类器是一种由多个弱分类器组合而成的强分类器,Viola-Jones检测器是由多个AdaBoost分类器级联组成,这种级联合构的一个重要作用就是加速。


2000年人脸检测技术开端成熟起来之后,就呈现了相关的实践应用,例如数码相机中的人脸对焦的功用,照相的时分,相机遇自动检测人脸,然后依据人脸的位置把焦距调整得更好。


2. 可变形部件模型(DPM)


Viola-Jones人脸检测器之后,在2009年呈现了另外一个比较重要的措施:deformable part model(DPM),即可变形部件模型。就人脸检测而言,人脸能够大致看成是一种刚体,通常状况下不会有十分大的形变,好比说嘴巴变到鼻子的位置上去。但是关于其它物体,例如人体,人能够把胳膊抬起来,能够把腿翘上去,这会使得人体有十分多十分大的非刚性变换,而DPM经过对部件中止建模就能够更好地处置这种变换。刚开端的时分大家也试图去尝试用相似于Haar特征+AdaBoost分类器这样的做法来检测行人,但是发现效果不是很好,到2009年之后,有了DPM去建模不同的部件,好比说人有头有胳膊有膝盖,然后同时基于部分的部件和整体去做分类,这样效果就好了很多。DPM相对比较复杂,检测速度比较慢,但是其在人脸检测还有行人和车的检测等任务上还是取得了一定的效果。后来呈现了一些加速DPM的措施,试图进步其检测速度。DPM引入了对部件的建模,自身是一个很好的措施,但是其被深度学习的光辉给盖过去了,深度学习在检测精度上带来了十分大的提升,所以研讨DPM的一些人也快速转到深度学习上去了。


3. R-CNN 系列


关于基于深度学习的物体检测措施,这里把最近两三年里面呈现的比较有代表性的工作做一个概括性地引见。一个就是R-CNN系列,另一个是传统措施和深度学习的措施的分离。这些措施呈现之后带来检测性能的极大的提升,待会我的博士生会引见性能提升的细致状况,大家能够看到,检测精度简直是成倍地增长。当然这里面还是存在一些问题,就是检测速度,我知道很多工业界的朋友都在想措施对基于深度学习的检测措施中止加速。

干货|山世光-基于深度学习的目的检测技术停顿与瞻望


所谓的R-CNN,是基于这样一种十分简单的想法,关于输入图像,经过selective search等措施,先肯定出例如2000个最有可能包含物体的窗口,关于这2000个窗口,我们希望它能够看待检测物体抵达十分高的召回率。然后对这2000个中的每一个去用CNN中止特征提取和分类。对这2000个区域都要去跑一次CNN,那么它的速度是十分慢的,即便每次只需求0.5秒,2000个窗口的话也是需求1000秒,为了加速2014年的时分何凯明提出了SPP-net,其做法是对整个图跑一次CNN,而不需求每一个窗口单独做,但是这样有一个小艰难,就是这2000个候选窗口每一个的大小都不一样,为理处置这个问题,SPP-net设计了spatial pyramid pooling,使得不同大的小窗口具有相同维度的特征。这个措施使得检测时不需求对每一个候选窗口去计算卷积,但是还是不够快,检测一张图像还是需求几秒的时间。

干货|山世光-基于深度学习的目的检测技术停顿与瞻望


Fast R-CNN自创了SPP-net的做法,在全图上中止卷积,然后采用ROI-pooling得到定长的特征向量,例如不论窗口大小是多少,转换成7x7这么大。Fast R-CNN还引入了一个重要的战略,在对窗口中止分类的同时,还会对物体的边框中止回归,使得检测框愈加精确。前面我们说候选窗口会有十分高的召回率,但是可能框的位置不是很准,例如一个人体框可能是缺胳膊缺腿,那么经过回归就能够对检测框中止校准,在初始的位置上求精。Fast R-CNN把分类和回归放在一同来做,采用了多任务协同窗习的方式。


Faster R-CNN相比于Fast R-CNN又带来了一个比较大的变更,其将产生候选窗口这一步也用深度网络来做,并且让这个网络和Fast R-CNN的分类网络共享了卷积层,这个产生候选窗口的网络叫做RPN,是Faster R-CNN的中心。RPN替代了之前十分慢的Selective Search,而且通常所用的候选窗口的数目也比较少,只需求300个就够了,这使得后面分类的速度会更快。为了检测各种各样的物体,RPN引入了所谓anchor box的设计,细致来说,RPN在最后一个卷积层输出的特征图上,先用3x3的卷积得到每个位置的特征向量,然后基于这个特征向量去回归9个不同大小和长宽比的窗口,假如特征图的大小是40x60,那么总共就会有大约2万多个窗口,把这些窗口依照信度中止排序,然后取前300个作为候选窗口,送去做最终的分类。经过用RPN交流Selective Search,并采用共享卷积层的方式,同时降低了候选窗口的数量,Faster R-CNN在速度上有了明显进步,其在GPU上能够抵达5fps的速度。


4. 回归位置——YOLO&SSD


2015年呈现了一个名为YOLO的措施,其最终发表在CVPR 2016上。这是一个蛮奇特的措施,关于给定的输入图像,YOLO不论三七二十一最终都划分出7x7的网格,也就是得到49个窗口,然后在每个窗口中去预测两个矩形框。这个预测是经过全衔接层来完成的,YOLO会预测每个矩形框的4个参数和其包含物体的信度,以及其属于每个物体类别的概率。YOLO的速度很快,在GPU上能够抵达45fps。

干货|山世光-基于深度学习的目的检测技术停顿与瞻望


在YOLO之后,在2015年Liu Wei提出了名为SSD的措施。前面提到的YOLO有一个明显的缺陷,就是最多只能检测7x7=49个物体,假如图像中有超越49个物体,那么肯定会有检测不到的,YOLO在每个网格里面只会检测一个物体,假如一个网格里面同时放入两个物体,那么其中一个就会被漏检。

干货|山世光-基于深度学习的目的检测技术停顿与瞻望


相比之下,SSD采用了相似于RPN中anchor box的机制,YOLO基于整个特征图用全局信息一同去回归一切位置的检测框,而SSD是用卷积基于部分特征去回归各个位置的检测框,并且SSD还用到了不同层的特征,之前YOLO只用了最后一个卷积层上的特征,这样做的缺陷就是难以检测小尺度的物体,最后一个卷积层上的神经元其感受野会十分大,小尺度的物体在这上面的特征就十分不明显。从速度上来看,在一些状况下,SSD以至会比YOLO更快,在GPU上抵达58fps的速度。


5. Cascade CNN


在物体检测范畴,过去有这样一种现象,就是对每一个物体我们都需求去设计和学习单独的检测器,例如做人脸检测和车辆检测,两个检测器特征会不一样,分类器也不一样,关于每一类物体,需求去尝试不同的特征和分类器的组合。但是到了往常,不论是R-CNN那一系列措施,还是YOLO和SDD,都没有在物体类别上有任何限制,能够检测人脸,也能够同时检测其他类别的物体,这是一个十分重要的优势。但是在特定类别物体的检测上,往常也还是有一些特地的措施,好比说做人脸检测的Cascade CNN,其用CNN交流了AdaBoost分类器,为了保障速度足够快,其采用十分简单的CNN,好比说把卷积核的数量控制得十分少。在cascade的前面级上,需求十分快速地处置滑动窗口,因而用的CNN会十分简单,到后面级上窗口变少,分类难度变大,会需求稍微复杂一点的CNN。目前Cascade CNN在公开的人脸检测评测集FDDB上,在产生100个误检的的时分,召回率能够抵达85%。


6. 总结


上面引见了一些代表性的基于深度学习的物体检测措施,简单总结一下:首先深度学习给检测精度的确带来了十分大的提升,以ImageNet上的物体检测任务为例,mAP从2013年的0.23提升到了2015年的0.62,这个变更是十分显著的;其次,物体检测措施中发作了的一个重要的变更,就是bounding box regression的引入,回归的方式开端兴起,这不只有利于定位,还有助于得到更为精确的检测框;最后,产生窗口的方式有很大的变更,从原来遍历式的滑动窗口,转变成了去寻觅最有可能呈现物体的窗口,只对少量的窗口去中止分类。


来源: 全球人工智能


欢送参与未来科技学院企业家群,共同提升企业科技竞争力


一日千里的科技停顿,层出不穷的新概念,使企业家,投资人和社会大众面临庞大的科技展开压力,前沿科技现状和未来展开方向是什么?现代企业家如何应对新科学技术带来的产业升级应战?


欢送参与未来科技学院企业家群,未来科技学院将经过举行企业家与科技专家研讨会,未来科技学习班,企业家与科技专家、投资人的聚会交流,企业科技问题专题研讨会等多种方式,辅佐现代企业经过前沿科技处置产业升级问题、展开新业务拓展,进步科技竞争力。


未来科技学院由人工智能学家在中国科学院虚拟经济与数据科学研讨中心的支持下树立,成立以来,曾经约请国际和国内著名科学家、科技企业家300多人参与学院树立,并树立掩盖2万余人的专业社群;与近60家投资机构协作,树立了近200名投资人的投资社群。展开前沿科技讲座和研讨会20多期。 欢送行业、产业和科技范畴的企业家参与未来科技学院



路过

雷人

握手

鲜花

鸡蛋
已有 0 人参与

会员评论

文章排行

  • 阅读
  • 评论

最新文章

文章列表

 名表回收网手机版

官网微博:名表回收网服务平台

今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
返回顶部