您现在的位置:首页 > 教案下载 > 正文

科学网—深度学习在目标视觉检测中的应用进展与展望(5)

2019-06-05 18:18 网络整理 教案网

2) 大规模多样性数据集还很缺乏

深度学习模型主要是数据驱动的, 依赖于大规模多样性的标记数据集.对一个特定的任务, 增加训练数据的规模和多样性, 可以提高深度学习模型的泛化能力, 避免过拟合.但是目前缺乏可用于目标检测的大规模多样性数据集, 即便是最大的公共数据集也只提供了很有限的标记类型, 比如PASCAL VOC有20个类型, MS COCO有80个类型, ImageNet有1 000个类型.由人工采集和标注含有大量目标类型的大规模多样性数据集非常费时耗力, 并且由于光照、天气、复杂背景、目标外观、摄像机视角和物体遮挡等导致的复杂性和挑战性, 同一类型目标在不同图像中可能看起来非常不同, 使得人工标注变得困难甚至容易出错.虽然可以采用众包方法(例如Amazon MTurk[])进行数据标注, 但是同样要耗费大量的人力财力, 并且标注困难.另外在一些特殊领域(例如在医疗和军事等领域)很难获得大规模实际图像.标记数据集的不足, 可能导致训练出的目标检测模型的可靠性和鲁棒性达不到要求.目前许多目标检测模型都采用先在ImageNet数据集上进行预训练, 再针对具体任务进行微调的方式.如果针对具体的目标检测任务, 有大规模多样性的标记数据集可供使用, 那么目标检测效果可以得到进一步提高.

为了解决上述问题, 我们认为可以采用平行视觉[-]的思路进行研究. 2016年, 王坤峰等[]将复杂系统建模与调控的ACP (Artificial societies, computational experiments, and parallel execution)理论[-]推广到视觉计算领域, 提出平行视觉的基本框架和关键技术.其核心是利用人工场景来模拟和表示复杂挑战的实际场景, 通过计算实验进行各种视觉模型的设计与评估, 最后借助平行执行来在线优化视觉系统, 实现对复杂环境的智能感知与理解. 显示了平行视觉的基本框架.为了解决复杂环境下的目标视觉检测问题, 我们可以按照平行视觉的ACP三步曲开展研究.

图 11 平行视觉的基本框架[]

Figure 11 Basic framework of parallel vision[]

1) 人工场景(Artificial scenes)

构建色彩逼真的人工场景, 模拟实际场景中可能出现的环境条件, 自动得到精确的目标位置、尺寸和类型等标注信息, 生成大规模多样性数据集.另外, 实际场景通常不可重复, 而人工场景具有可重复性, 通过固定一些物理模型和参数, 改变另外一些, 可以定制图像生成要素, 以便从各种角度评价视觉算法.人工场景可以不受现有实际场景的限制, 预见未来的实际场景, 为视觉算法设计与评估提供超前信息.总之, 人工场景能够提供一种可靠的数据来源, 是对实际场景数据的有效补充.

2) 计算实验(Computational experiments)

实验小结该实验让我学会了如何操作分光光度计,仪器操作较简单,但数据处理较为复杂,经过此次实验我熟练掌握了绘图方法和数据 处理的应用。这表明本文算法可以应用在基于DSP和滑动式传感器的自动指 纹识别系统,研究成果为今后进一步开发提供了有价值的实际参考算法和实验 数据。基于人工智能的商品图像识别技术在电商、零售、房产、家居、食品等商业领域有着丰富的应用前景.而在核心技术层面,码隆科技的人工智能研究解决了行业中“深度学习“算法的一个长久痛点,凭借创新的弱监督学习算法,让互联网和实际生产环境中各类含噪音图像数据也充分利用起来进行算法模型训练.码隆科技联合创始人兼cto matt scott表示,这一算法创新节省了过去构建算法模型所需的千万级人工标注数据.。

3) 平行执行(Parallel execution)

将视觉算法在实际场景与人工场景中平行执行, 使模型训练和评估在线化、长期化, 通过实际与人工之间的虚实互动, 持续优化视觉系统.由于应用环境的复杂性、挑战性和变化性, 不存在一劳永逸的解决方案, 只能接受这些困难, 在系统运行过程中不断调节和改善.平行执行基于物理和网络空间的大数据, 以人工场景的在线构建和利用为主要手段, 通过在线自举(Online bootstrapping)或困难实例挖掘(Hard example mining), 自动挖掘导致视觉算法失败或性能不佳的实例, 利用它们重新调节视觉算法和系统, 提高对动态变化环境的自适应能力.

目前, 已经有一些工作基于人工场景数据进行目标检测模型的训练.例如, Peng等[]利用3D CAD模型自动合成2D图像, 使用这种虚拟图像数据来扩大深度卷积神经网络的训练集非常有效, 尤其是在真实的训练数据很有限或不能很好地匹配目标领域的情况下, 避免了代价昂贵的大规模手工标注. Johnson-Roberson等[]利用游戏引擎生成逼真的虚拟图像, 用于目标检测模型的训练.实验表明, 在KITTI数据集上, 使用大规模的虚拟图像集训练的模型比基于较小规模的真实世界数据集训练的检测器精度更高.但是, 已有的工作主要集中在人工场景和计算实验, 忽视了平行执行.我们认为, 将视觉算法在实际场景与人工场景中平行执行, 持续优化视觉系统, 提高其在复杂环境下的鲁棒性和适应性是非常重要的.

t:相同观察值的祖数 样本1 485.5 39 5411 48 5.5 41 5914.5 49 5914.5 52 10 47 6516 56 12 51 5713 原假设:总体分布相同 备选假设:总体分布不完全相同 显著性水平:95% 1612 自由度为2,风险水平是0.05的临界值为5.991,h>5.991,则拒绝原假设,认为总体分布存在差异。成功的机器学习有四个要素:数据、转换数据的模型、衡量模型好坏的损失函数和一个调整模型权重来最小化损失函数的算法。williamkruskal (1919-2005) allenwallis (1912-1998) 从总体中抽取的样本必须是独立的用于检验多个总体是否相同(对应的参数方 法—方差分析) kruskal-wallis检验不需要总体服从正态 分布且方差相等这些假设 该检验可用于顺序数据,也可用于数值型 数据 :并非所有总体都相同或等价于 不全相同1、合并所有的样本 2、将合并后的样本值从低到高排序 3、将排序后的值用秩代替,从最小值1开始 4、统计量 样本k的秩和样本k的样本容量 6、如果样本至少包含5个观测值,样本统计量h的分布就非常近似于自由度为k-1的卡方分布 n:观察值个数。

另外, 在深度学习模型自身方面, 如何提高模型的可解释性, 改善模型结构, 设计新的优化方法, 降低模型训练和应用时的计算复杂性, 提高计算效率, 得到更加有用(More effective)和更加有效的(More efficient)深度学习模型, 这些问题都需要深入研究.目前, 基于候选区域的目标检测方法精度最高, 而基于回归的SSD方法在实时性上表现最好, 如何将这两类方法相结合, 借鉴和吸收彼此的优点, 在检测精度和速度上取得新的突破还有待研究.

5 结论

目标视觉检测在计算机视觉领域具有重要的研究意义和应用价值, 深度学习是目前最热门的机器学习方法, 被广泛研究和应用.本文综述了深度学习在目标视觉检测中的应用进展与展望.首先说明了目标视觉检测的基本流程和常用的公共数据集, 然后重点介绍了深度学习方法在目标视觉检测中的最新应用进展, 最后对深度学习在目标视觉检测研究中的困难和挑战进行了分析, 对未来的发展趋势进行了思考与展望.

缺乏可用的实际iot应用大数据集将深度学习模型引入iot的一个主要障碍,因为深度学习需要更多的数据来实现更高的精度。本设备经纬仪等一些精密测量设备在研制出来之后需既可以检测被检测设备的静态精度,同时也能检测要首先进行室内的检测,用平行光管模拟无限远处被检设备的动态精度、成像清晰度、模拟空间运动目的目标,而检测架是为了将这些不同角度 方位、俯标及被测设备的跟踪性能,还可以对设备的动态测仰 的平行光管固定支撑起来而设计的支撑结角定向精度进行检测,这是以前的检测架无法完成构 。• 支持各类web应用的深度漏洞扫描,根据风险评估和漏洞扫描的需要对目标应用进行深度遍历,获取应用列表。

参考文献

[17] dean, j., corrado, g.s., monga, r., et al, ng, a. y. large scale distributed deep networks. in proceedings of the neural information processing systems (nips’12) (lake tahoe, nevada, united states, december 3–6, 2012). curran associates, inc, 57 morehouse lane, red hook, ny, 2013, 1223-1232.。sutskever, ilya, oriol vinyals, and quoc v. le. “sequence to sequence learning with neural networks.” advances in neural information processing systems 2014: 3104-3112.。 williams, “using the equivalent kernel to understand gaussian process regression,” in“advances in neural information processing systems 17,” (the mit press, 2005), pp。

2 Felzenszwalb P F, Girshick R B, McAllester D, Ramanan D. Object detection with discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

3 Huang Kai-Qi, Ren Wei-Qiang, Tan Tie-Niu. A review on image object classification and detection. Chinese Journal of Computers, 2014, 37(6): 1225-1240.

( 黄凯奇, 任伟强, 谭铁牛. 图像物体分类与检测算法综述. 计算机学报, 2014, 37(6): 1225-1240.)

4 Zhang X, Yang Y H, Han Z G, Wang H, Gao C. Object class detection: a survey. ACM Computing Surveys (CSUR), 2013, 46(1): Article No. 10.

navneet dalal and bill triggs,《histograms of oriented gradients for human detection》,2005。2、原论文:histograms of oriented gradients for human detection。[1]shi, wenzhe, et al. “real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network.” proceedings of the ieee conference on computer vision and pattern recognition. 2016.。