您现在的位置:首页 > 教案下载 > 正文

科学网—深度学习在目标视觉检测中的应用进展与展望

2019-06-05 18:18 网络整理 教案网

图像 颜色 识别_图像处理 目标识别_手势识别图像库

深度学习在目标视觉检测中的应用进展与展望

张慧,王坤峰,王飞跃

【摘要】 目标视觉检测是计算机视觉领域的一个重要问题,在视频监控、自主驾驶、人机交互等方面具有重要的研究意义和应用价值.近年来,深度学习在图像分类研究中取得了突破性进展,也带动着目标视觉检测取得突飞猛进的发展.本文综述了深度学习在目标视觉检测中的应用进展与展望.首先对目标视觉检测的基本流程进行总结,并介绍了目标视觉检测研究常用的公共数据集;然后重点介绍了目前发展迅猛的深度学习方法在目标视觉检测中的最新应用进展;最后讨论了深度学习方法应用于目标视觉检测时存在的困难和挑战,并对今后的发展趋势进行展望.

【关键词】 目标视觉检测 深度学习 计算机视觉 平行视觉

引用格式 张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报, 2017, 43(8): 1289-1305

Advances and Perspectives on Applications of Deep Learning in Visual Object Detection

ZHANG Hui, WANG Kun-Feng, WANG Fei-Yue

Abstract: Visual object detection is an important topic in computer vision, and has great theoretical and practical merits in applications such as visual surveillance, autonomous driving, and human-machine interaction. In recent years, significant breakthroughs of deep learning methods in image recognition research have arisen much attention of researchers and accordingly led to the rapid development of visual object detection. In this paper, we review the current advances and perspectives on the applications of deep learning in visual object detection. Firstly, we present the basic procedure for visual object detection and introduce some newly emerging and commonly used data sets. Then we detail the applications of deep learning techniques in visual object detection. Finally, we make in-depth discussions about the difficulties and challenges brought by deep learning as applied to visual object detection, and propose some perspectives on future trends.

Key words: Visual object detection, deep learning, computer vision, parallel vision

Citation ZHANG Hui, WANG Kun-Feng, WANG Fei-Yue. Advances and Perspectives on Applications of Deep Learning in Visual Object Detection[J]. Acta Automatica Sinica, 2017, 43(8): 1289-1305

无人机的景象匹配视觉导航 [4] 作为惯性导航的一种重要备份手段,其原理是将机载视觉传感器实时采集到的场景图像(实时图)与预先存储的卫星基准数据库图像(基准图)进行图像匹配,进而获取实时图在基准图中的精确位置,实现对无人机的精确定位和导航。对比图 5 的第 1 列和第 3 列可见,局部精确直方图匹配方法能够消除原始图像和目标图像之间的颜色差异,处理效果比较好,使其几乎逼近目标图像的颜色。通过对 sfu grey-ball 数据集中的图像和景象匹配具体应用中的实时图进行色彩校正实验,并与经典色彩恒常算法进行对比分析,从视觉主观判断、光源颜色估计的欧拉角误差、景象匹配平均误差、景象匹配成功率四个方面,验证了所提算法能够有效降低图像之间的色彩差异,使景象匹配系统获得色彩恒常性,提高景象匹配辅助导航的定位精度和鲁棒性。

原料1中,微博的呈现形式不单是短视频,还有文字、图像、音频、长视频,聚焦注意力的能力被稀释了。衣+视觉引擎基于海量数据的深度学习,检测视频或图像中的万类物体,其中常用物体超过300类常用物体,并通过特征分析,准确判断物体类目。图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。

在自然环境条件下, 目标视觉检测经常遇到以下几个方面的挑战:

1) 类内和类间差异

目标跟踪时只关注一个物体,重点区分该物体和背景信息,明显抑制背景中的同类物体,但是还需要对目标本身的变化鲁棒。二、游戏:打扮大小熊(认识大小,并初步学习同类物品中区分物体的大小)。4.区分判别性:同一层次的各评价因子间应具有区分判别性,即不能出现模糊不清,不易区分的模糊因子,并有可能给出一定的评价值。

2) 图像采集条件

在图像采集过程中, 由于环境、光照、天气、拍摄视角和距离的不同、物体自身的非刚体形变以及可能被其他物体部分遮挡, 导致物体在图像中的表观特征具有很大的多样性, 对视觉算法的鲁棒性提出了很高要求.

3) 语义理解的差异

对同一幅图像, 不同的人可能会有不同的理解, 这不仅与个人的观察视角和关注点有关, 也与个人的性格、心理状态和知识背景等有关, 这明显增加了从仿生或类脑角度来研究视觉算法的难度.

4) 计算复杂性和自适应性

一般的,对于包含有大量非规则形状和高度突变的场景,比较适合提取点状特征,因为提取线段、区域等特征既困难又会引入误差:对于具有规则结构的场景,若线段和区域特征的提取和描述比较容易且误差较小,应提取线段特征以实现快速匹配。霍兰德提出了广为人知的职业兴趣六边形模型,对于这 262 六大类型的个体特点,以下哪个不属于对这六大类型的 个体特点的描述: 以下这个是对霍兰德兴趣六型特征中哪一项的描述:个 性谨慎,做事讲求规矩和精确。朗驰基于海思hi3511平台开发除了一款带智能分析的编码器产品,支持运动目标的检测、分类及轨迹追踪、复杂环境下的运动目标检测、多种绊线检测、任意形状警戒区域检测、增强的视频稳像功能、任意形状的区域屏蔽功能、火焰检测和目标分类功能以及黑度检测功能。

高精度检测一直是机器视觉行业的难点,下面将介绍高分辨率相机和高精度双远心镜头在视觉检测中的几种应用方案,行业涉及当前热门的高速铁路、电子产品检测等。缺乏可用的实际iot应用大数据集将深度学习模型引入iot的一个主要障碍,因为深度学习需要更多的数据来实现更高的精度。据悉,超多维将逐步搭建起以核心技术优势为基石,完善的智能计算视觉生态体系(包括裸眼3d、vr、ar、视觉信息模糊计算、ai等),加速开发和布局以深度学习、图形图像计算、模糊逻辑计算等核心技术为支撑,具有创新性的个人消费类市场互联网应用及行业垂直领域的专业应用。

本文内容安排如下:第1节介绍目标视觉检测的基本流程; 第2节对目标视觉检测研究常用的公共数据集进行概述; 第3节介绍深度学习技术在目标视觉检测中的最新应用进展; 第4节讨论深度学习技术应用于目标视觉检测时存在的困难和挑战, 并对今后的发展趋势进行展望; 第5节对本文进行总结.

1 目标视觉检测的基本流程

两种标准分类体系的对比研究 由于 国际标准分类法 和 中国标准文献分类法 两种体系的形成和分类类别各不相同 其使用者的检索习 惯也有所不同 同时两种体系类目的设置也不可能一一对 应 与所要建设的专题库范围更不可能完全相符 在标准文献专题库建设中 对同一标准同时采用国际 标准分类法 ics 分类和中国标准文献分类法 ccs 结 合加工的“双分类法” 不仅可以有效地选取特定领域的标 准文献 也极大地提高了标准文献专题库检索的查全率和 查准率。要提取的类别可认为是目标类别,其他类别可认为是背景类别,当目标类别和背景类别在某特征上具有显著差异时,可以利用assign class算法来构建分类规则,而且这里的规则是一种“硬分类规则”,即要么是,要么不是,所以可称之为确定性规则分类。端口检测有三种方式,第一种是检测目标计算机的所有端口,第二种是检测目标计算机的特定端口,第三种是检测目标计算机是否被植入了木马。

图 1 目标视觉检测的基本流程

Figure 1 Basic procedure for object detection

本节接下来从区域建议、特征表示和区域分类三个方面来总结目标视觉检测的关键技术.

1.1 区域建议

15a470014 混合动力汽车动力系统预测控制技术研究 15a470015 链式多电平隔离型储能逆变器技术应用研究 15a480004 光伏发电系统光电转换效率提升关键技术研究 15a510008 基于回声状态网络的电力线信道估计方法研究 15a510024 基于尺度不变特征转换理论的人脸识别技术及系统研究 15a510025 基于深度学习的视频车辆检测技术研究 15a510026 微流控芯片中基于石墨烯场效应管基因检测技术的研究 15a520001 基于惯性传感的井下人员高精度定位关键技术研究 15a520016 基于unity3d的三维数字展馆系统研究 15a520017 多分类器系统中的集成差异性研究 15a520018 基于可编程gpu的数字矿山实时体绘制的研究 15a520070 多模态医学图像融合的向量特征分解方法研究 15a520071 云架构下的高校优质教育资源共享模式研究 15a520072 基于血液细胞图像处理的畸形自动诊断系统 15a520073 大数据下的相似检测技术研究 15a520074 基于android移动终端的课堂助教系统 15a520075 基于多源数据同化的豫西北干旱灾害预警与预报。 3.3.2 基于小波和相对矩的形状特征提取与匹配 该方法先用小波变换模极大值得到多尺度边缘图像,然后计算每一尺度的 7个不变矩,再转化为 10 个相对矩,将所有尺度上的相对矩作为图像特征向量,从而统一了区域和封闭、不封闭结构。分水岭分割方法,是一种基于拓扑理论的数学形态学的分割方法,其基本思想是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域称为集水盆,而集水盆的边界则形成分水岭。

1.1.1 基于滑动窗的区域建议

基于滑动窗的方法是在输入图像所有可能的子窗口中执行目标检测算法来定位潜在的目标.在文献[5]中, 检测窗口是一个给定大小的矩形框, 在整幅图像的所有位置和尺度上进行扫描, 并对区域分类结果做非极大值抑制.基于滑动窗的区域建议方法采用穷举搜索, 原理简单, 易于实现, 但是计算复杂性高, 太过耗时.于是一些研究者提出加快窗口搜索的方法. Lampert等[9]提出了一种高效的子窗口搜索策略(简称为ESS), 采用分支限界法来减少搜索范围.但是它的性能在很大程度上取决于输入图像中的物体, 当没有物体出现时, 该算法退化到穷举搜索. An等[10]提出一种改进的ESS算法. Wei等[11]提出一种在直方图维度上具有常数复杂度的滑动窗口策略. Van de Sande等[12]引入图像分割信息, 将其作为目标假设区域, 从而只对这些假设区域进行目标检测.