您现在的位置:首页 > 教案下载 > 正文

科学网—深度学习在目标视觉检测中的应用进展与展望(4)

2019-06-05 18:18 网络整理 教案网

ar 系统的趋势是采用基于视觉的 slam 算法,通过两帧或多帧图像估计位姿变化,但 slam 方法的稳定性对场景特征的依赖较大,不得不在定位效率和定位精度之间取得平衡,很多时候需牺牲精度换得定位效率。训练时可以利用反向传播算法计算梯度,再用梯度下降方法在参数空间中寻找最优解。主要的研究工作和创新见解如下:1.针对训练样本稀缺的情况,提出了一种面向不均衡小样本集的boosting训练算法,该算法通过在训练过程中逐步加入人工合成样本,对已选定的弱分类器进行扰动,并自适应地平衡训练集中的正负样本比例,与当前的其他算法相比较,本文算法提高了分类器泛化能力。

3.4 空间关系特征 提取图像空间关系特征可以有两种方法:一种方法是首先对图像进行自动分割,划分出图像中所包含的对象或颜色区域,然后根据这些区域提取图像特征,并建立索引。其基本思想是利用某种几何模型或结构来表示物体的结构和形状,并通过提取某些物体特征,在模型和图像之间建立起对应关系,然后通过几何或者其它方法实现物体空间姿态的估计。在遇到需要对一个图像某个位置的物体进行判断时,一般想到的都是拿已经存储的图像去对比,对比的时候,由于噪声干扰以及多种冗余信息存在的原因,不可能按像素一个个比对,需要对图像特征进行提取,然后再比对。

图 8 HyperNet的计算流程[]

Figure 8 Calculation flow of HyperNet[]

haar特征进行车牌检测,从我的实验结果来看,检测率也能达到99%以上,但同时虚警率也非常高,会出现很多误检,而且很难把车牌的区域完整的检测出来,所以如果单独要用机器学习的算法还是不太可行,不过可以先利用边缘信息找到候选区域,然后用adaboost去去除非车牌区域,这个效果还是蛮不错的。第14章,“恶意代码的网络特征”,教你如何通过恶意代码分析来创建网络检测特征,并演示这类特征要优于单独从捕获网络流量中提取的特征。 朝向差200元 8层管道层均价9200元/平米 专题研究 自住+投资型住宅 客户特征 核心特征: 荣上居的目标客户以中关村区域年轻小白领为主,实际认购客户也以中关村区域年轻小白领为主,自住并考虑以后投资。

最近, Kim等[]提出PVANET网络, 在TITAN X上实现了基于轻量级模型的目标检测, 处理一幅图像仅需要46 ms, 在PASCAL VOC 2012数据集上的检测平均精度达到82.5 %.为了减少网络参数, PVANET采用了Concatenated ReLU[]结构, 在不损失精度的情况下使通道数减少一半, 并在拼接操作之后加入了尺度变化和偏移.网络中还加入了Inception[]模型来更有效地捕捉各种尺度的物体, 以及HyperNet[]中多尺度特征融合的思想, 来增加对细节的提取.

3.3.2 无区域建议(Proposal-free)的方法

基于区域建议的目标检测方法不能利用局部目标在整幅图像中的空间信息, 所以一些研究者开展了无区域建议的目标检测研究, 主要采用回归的思想.早期提出的无区域建议的方法, 检测效果不太理想.

所以训练集,其实就是给小孩看的,带有正确答案的图片,对于深度学习而言,训练集就是用来求解神经网络的权重的,最后形成模型。世界上流行的评分模型开发方法主要分三类:非线性规划算法、统计学回归算法、神经网络算法(目前还流行随机森林、机器学习等算法应有尽有,我自己比较喜欢用l+svm的方式)。同时,在cvpr 2017的ilsvrc 2017(imagenet large scale visual recognition challenge 2017) 视频物体检测(object detection from video)竞赛的四个项目(包括给定训练数据条件下的视频物体识别、额外训练数据条件下的视频物体识别、给定训练数据条件下的视频物体识别/追踪,以及额外训练数据条件下的视频物体识别/追踪)中,优必选悉尼ai研究院与帝国理工学院组成的联合队伍ic-usyd都以领先第二名超过5%的成绩取得了第一名。

图 9 基于DNN回归的目标检测框架[]

Figure 9 Object detection framework based on DNN regression[]

Sermanet等[]提出Overfeat模型, 把一个卷积神经网络同时用于分类、定位和检测这几个不同的任务.卷积层作为特征提取层保持不变, 只需要针对不同的任务改变网络的最后几层为分类或回归层. Overfeat的模型结构与AlexNet结构[]基本相同.其中, 前面5个卷积层为不同任务的共享层, 其余的层则根据任务进行相应的调整, 并对网络做了一些改动.为了避免图像的某些位置被忽略, Sermanet等采用偏置池化层来替换最后一层池化层, 既实现了池化操作, 也减小了采样间隔. Overfeat训练分类模型时只使用单个尺度(221×221)进行训练, 测试时使用多个尺度输入图像, 没有使用AlexNet中的对比归一化.对于检测问题, 传统的方法是采用不同尺寸的滑动窗对整幅图像进行密集采样, 然后对每一个采样所得的图像块进行检测, 从而确定目标物体的位置. Overfeat使用CNN来进行滑动窗操作, 避免了对各图像块的单独操作, 提高了算法效率; 而且将全连接层看作卷积层, 使得输入图像的尺寸不受限制.但是Overfeat对于较小尺寸目标的识别依然存在困难.

对比图 5 的第 1 列和第 3 列可见,局部精确直方图匹配方法能够消除原始图像和目标图像之间的颜色差异,处理效果比较好,使其几乎逼近目标图像的颜色。eos 50d的实时显示拍摄功能得到了升级,不仅可以在这一模式下操作菜单,网格线的选择更多,而且具有三种自动对焦模式:利用相位检测的快速模式,利用反差检测的实时模式,以及全新的实时面部优先模式,此模式下,相机自动识别图像中人物的面部,优先进行对焦。动态层模型的中心思想是根据紧邻运动边界网格层高度的变化,添加或者减少动态层,即在边界发生运动时,如果紧邻边界的网格层高度增大到一定程度,就将其划分为两个网格层。

与YOLO类似, Najibi等[]提出的G-CNN模型也着重于检测速度的提升.该方法将目标检测模型转化为迭代回归问题, 通过对整个图像进行不同尺度的网格划分得到初始检测框, 然后采用分段回归模型多次迭代, 不断提高边框准确度. G-CNN使用了约180个初始边框, 经过5次迭代达到与Fast R-CNN相当的检测精度, 但是计算速度比Fast R-CNN快5倍.

1 机械制图基础1.1 制图原理1.1.1 投影法1.1.2 投影法的分类1.1.3 正投影的基本特性1.2 三视图1.2.1 视图及三视图1.2.2 三视图反映物体的位置关系1.2.3 三视图的投影规律1.2.4 基本几何形体的三视图1.2.5 画组合体的三视图1.2.6 读组合体的视图1.3 机件常用表达方法1.3.1 视图1.3.2 剖视图1.3.3 断面图1.4 零件图1.4.1 零件图的内容1.4.2 零件图的尺寸标注1.4.3 零件图的绘制与阅读1.5 装配图1.5.1 装配图的内容1.5.2 阅读装配图思考题2 机械零件的几何精度2.1 互换性与标准化2.1.1 互换性2.1.2 标准化2.2 尺寸精度2.2.1 尺寸2.2.2 尺寸偏差。如分辨率为1200dpi的图像扫描仪是指该扫描仪的图像输入精度为每英寸可采集1200个点,分辨率和打印尺寸便呈现反比的关系、聚焦功能……都不尽相同,各品牌之间的ccd大小分辨率大小。局部特征量例如包括对象块图像bo的像素值(y分量、u分量、v分量)各自的平均值以及方差值、对象块图像bo中的横方向的边缘尺寸以及纵方向的边缘尺寸、对象块图像bo中的横方向的边缘尺寸以及纵方向的边缘尺寸之比、对象块图像bo中的y分量的直方图或对象块图像bo的像素值与肤色的相似度。

与基于候选区域的方法相比, YOLO定位准确率低且召回率不高.因此, Redmon等[]提出了改进的YOLO模型, 记作YOLOv2, 主要目标是在保持分类准确率的同时提高召回率和定位准确度.通过采用多尺度训练、批规范化和高分辨率分类器等多种策略, 提升了检测准确率的同时速度超过其他检测方法, 例如Faster R-CNN和SSD. Redmon等还提出了一种新的联合训练算法, 同时在检测数据集和分类数据集上训练物体检测器, 用检测数据集的数据学习物体的准确位置, 用分类数据集的数据增加分类的类别量, 提升健壮性, 采用这种方法训练出来的YOLO9000模型可以实时地检测超过9 000种物体分类.

3.3.3 总结

ngc scout 10 plus系统采用多波长检测器作为检测模块,可高精度、实时地检测四个不同的波长,该检测模块也同时整合有电导检测器。ngc discover系统采用多波长检测器作为检测模块,可高精度、实时地检测四个不同的波长,该检测模块也同时整合有电导检测器。1)攻击检测利用覆盖电信全网核心路由器的netflow数据进行攻击监测,其优势是可以对经过中国电信大网的任意互联网目标地址的进行在线实时流量监控,在大流量攻击发生时,有别于传统攻击检测方式只能在近攻击目的端的网络或主机上计算攻击流量和访问量因而无法避免出现因为流量拥塞或丢包带来的记数严重偏小问题,云堤可以在全网所有链路上对去往目标ip所的实际攻击流量进行全面评估,因此对大型ddos攻击的流量规模测度最为准确。

图 10 一些目标视觉检测方法在公共数据集上的性能比较

Figure 10 Performance comparison of some object visual detection methods on public datasets

4 思考与展望

近年来,深度学习方法[]得到广泛应用,已经在图像识别[-]、语音识别[-]等领域取得了令人瞩目的成果.作为机器学习中的重要方法之一,由于其强大的自动特征提取、复杂模型构建以及图像处理能力,非常适合处理生物医学数据分析所面临的新问题,引起了生物医学领域研究人员的广泛关注.深度学习方法从人工神经网络模型发展而来.通过组合多个非线性处理层对原始数据进行逐层抽象,从数据中获得不同层面的抽象特征并用于分类预测.与传统机器学习方法相比,具有以下三个特点:a.“深层”模型架构.深度学习模型的多层结构与动物的视觉处理系统极为相似[].与其他浅层模型,如支持向量机(support vector machine,svm)等相比,深度学习模型拥有更多的隐层,包含更多的非线性变换,这使得深度学习拟合复杂模型的能力大大增强.b.多层数据特征表示[].深度学习模型以数据的原始形式作为输入,之后将当前层的输出作为下一层的输入,逐层堆叠,由此归纳得到更高级的特征表示,从而能够刻画复杂数据结构.c.无监督学习.深度学习模型在训练中加入无监督学习过程,通过预训练获得良好的模型初值,能有效提升训练效果,另外无标签数据加入训练也增加了可用数据的规模.。深度学习就是通过这种分类的自动特征提取来达到目标分类,先构建一些基本的特征层,然后用这些基础特征去构建更高层的抽象,更精确的分类特征。dbn构建过程如下:首先训练得到第一个rbm,随后冻结模型的权值并将其隐藏层作为下一个rbm模型的可视层,用同样的方法可训练得到第二个rbm.依次类推,可以得到多个rbm.将多个rbm按顺序堆叠在一起便构成一个深度玻尔兹曼机(deep boltzmann machine,dbm)模型.此时模型的输出将是输入数据经过多次抽象后得到的多层抽象表示,也就是模型自动学习到的数据特征.若将此特征作用于分类器,通常能得到好的分类结果.在dbm的顶端加入“联想记忆”层,则构成dbn模型.如果在dbn第一层之前加入卷积处理层,可得到卷积深度信念网络模型(convolution dbn).该模型已成功应用在人脸识 别[]、音频分类[]问题中.。

1) 深度学习理论还不完善

深度学习的优势之一是能够自动学习表达能力强的抽象特征, 不需要由专家手工进行特征设计和选择.但是, 将深度学习模型应用于目标检测时还缺乏足够的理论支撑, 学习到的模型的可解释性较弱.目前的研究通常是把深度学习模型当作一个黑盒子(Black box)来直接使用, 对于如何选择和构建模型、如何确定模型的深度以及深度学习的本质等基本问题还没有给出很好的解释.理论的不完善导致研究时缺乏充分的原理性指导, 在设计新的模型时往往只能凭借经验和运气. Pepik等[]利用Pascal 3D+[]数据集对R-CNN方法进行分析, 结果表明卷积神经网络对于场景和目标的各种外观因素的变化不具有视觉不变性, 目前大多数深度学习方法在处理多目标遮挡和小尺寸目标等困难问题时效果还不是很好, 增加额外的训练数据并不能克服这些缺陷, 有必要对模型结构做出改变.因此必须进一步完善深度学习理论, 为改进模型结构、加速模型训练和提高检测效果等提供指导.