Scalable Object Detection using Deep Neural Networks

摘要

深卷积神经网络最近在许多图像识别基准上取得了最新的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。定位子任务的获胜模型是一个预测图像中每个对象类别的单个包围盒和置信度得分的网络。这样的模型捕获对象周围的整个图像上下文,但如果不复制每个实例的输出数量,则无法处理图像中同一对象的多个实例。在这项工作中,我们提出了一个显著性启发的神经网络检测模型,该模型预测一组与类无关的边界框以及每个框的一个分数,对应于它包含任何感兴趣对象的可能性。该模型自然地为每个类处理不同数量的实例,并允许在网络的最高级别进行跨类泛化。我们能够在VOC2007和ILSVRC2012上获得竞争性的识别性能,同时只使用每个图像中的前几个预测位置和少量的神经网络评估。

bounding box 与类别无关, 为每个类处理不同数量的实例。

1 Introduction

对所有可能的位置和尺度进行详尽的搜索是一个计算难题。随着类的数量增加,这个挑战变得更加困难,因为大多数方法都为每个类训练一个单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割来提出少量的目标假设[17,2,4]。在本文中,我们将后一种方法归结为一种检测器,称为“DeepMultiBox”,它产生少量的边界盒作为对象候选。这些盒子是由一个单独的深度神经网络(DNN)以类不可知的方式生成的。我们的模型有一些贡献。首先,我们将目标检测定义为对多个边界框坐标的回归问题。此外,对于每个预测的框,网络输出一个置信分数,说明该框包含对象的可能性。这与传统的方法有很大不同,传统方法在预先定义的框内对特征进行评分,并且具有以非常紧凑和高效的方式表示对象检测的优点。

第二个主要贡献是损失,它将训练Bounding Box预测器作为网络训练的一部分。对于每一个训练实例,我们都解决了当前预测和背景真值框之间的分配问题,并通过反向传播更新匹配的框坐标、它们的置信度和基本特征。这样,我们就可以学习到一个针对本地化问题而定制的深层网络。我们利用DNNs良好的表示学习能力,例如最近在图像分类[11]和对象检测设置[15]中的例子,并执行表示(representation)和预测器(predictors)的联合学习。最后,我们以类不可知的方式训练对象框预测器。我们认为这是一种可伸缩的方法,可以有效地检测大量对象类。我们的实验表明,只需对不到10个盒子进行后分类,就可以在单个网络应用中获得竞争性的检测结果。此外,我们还证明了我们的box预测器可以推广到不可见(未知 unseen)的类上,因此可以灵活地在其他检测问题中重用。

DeepMultiBox : 使用分割来提出少量的目标假设
将目标检测定义为对多个边界框坐标的回归问题
输出一个置信分数,说明该框包含对象的可能性
Bounding Box预测器作为网络训练的一部分进行训练(位置回归)

2 Previous work

关于对象检测的文献非常丰富,在本节中,我们将重点介绍 利用类不可知思想解决可伸缩性问题 的方法。

3 Proposed approach

我们的目标是通过预测一组表示潜在对象的边界框来实现类不可知的可伸缩对象检测。更准确地说,我们使用一个深度神经网络(DNN),它输出固定数量的边界框。此外,它还为每个框输出一个分数,表示包含对象的该框的网络可信度。

Bounding box : 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成向量 l[i] ∈R4。这些坐标是关于图像尺寸的标准化,以实现对绝对图像尺寸的不变性。每个标准化坐标由最后一个隐藏层的线性变换产生。

Confidence: 包含对象的 Bounding box 的置信度编码为单个节点值 c[i]∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个Sigmoid。

此篇论文中 Bounding box 由 左上角和右下角坐标 定义;
Confidence 属于0到1 ,sigmoid。





除非注明,否则均为一叶呼呼原创文章,转载必须以链接形式标明本文链接

本文链接:http://www.yiyehu.tech/archives/2020/03/18/scalable-object-detection-using-deep-neural-networks

发表评论

电子邮件地址不会被公开。 必填项已用*标注