利用视觉监控进行道路交通异常检测: 综述 Anomaly Detection in Road Traffic Using Visual Surveillance: A Survey

摘要

计算机视觉是近十年来发展起来的一项关键技术,在许多应用中取代了人类的监督。本文以道路交通为主要研究对象,综述了与视觉监控相关的公共场所异常检测研究。首先,我们回顾了过去10年在这一领域所做的调查。由于典型异常检测的基本组成部分是学习,因此我们更强调应用于视频场景的学习方法。在此基础上,我们总结了近六年来在异常检测方面所做的重要贡献,主要集中在单台静态相机的异常特征、基本技术、应用场景和异常类型等方面。最后,我们讨论了与计算机视觉相关的异常检测技术面临的挑战以及未来的一些重要可能性

关键词:计算机视觉,异常检测,道路交通分析,学习方法。

介绍

已有一些基于计算机视觉的研究,主要集中在数据获取[175]、特征提取[80,164]、场景学习[14,36,67,124]、活动学习[181]、行为理解[15,162]等方面。这些研究主要讨论了场景分析、视频处理技术、异常检测方法、车辆检测与跟踪、基于多摄像头的技术与挑战、活动识别、交通监控、人的行为分析、应急管理、事件检测等方面。

典型异常检测方案概述。预处理块以描述符的形式提取特征/数据。正常的行为以抽象的形式表示为规则、模型或数据存储库。特殊异常检测技术是利用异常评分或标记机制来检测异常。

异常检测是从监视场景中理解行为的子领域[175]。异常通常是场景实体(车辆、人类或环境)与正常行为的偏差。随着公共场所提供视频源,视频分析和异常检测的研究成果激增[115, 158, 162, 164]。典型的异常检测方法通过训练学习正常行为。任何明显偏离正常行为的行为都可以称为异常。走道上有车辆,聚集区内有人突然散开,步行时有人突然摔倒,乱穿马路,交通路口有信号灯绕行,或红灯时有车辆掉头,这些都是异常现象的例子。异常检测框架通常使用无监督、半监督或无监督学习。在本次调查中,我们主要探讨在道路交通场景中使用的异常检测技术,重点是车辆、行人、环境等实体及其相互作用。我们注意到,研究范围应涵盖输入数据及其表示的性质、监督学习的可行性、异常类型、技术在应用环境中的适用性、异常检测输出和评估标准。我们从上述角度提出这项调查。典型的异常检测框架如图1所示。通常,异常检测系统通过学习正常的数据模式来构建正常的配置文件。一旦学习了正常模式,就可以借助已建立的方法检测异常[97, 137]。系统的输出可以是一个分数,通常以度量或标签的形式通知数据是否异常。

一些最新异常检测技术的视觉快照,以呈现有关调查的概述。(a) 基于运动相互作用场的事故检测[211]。(b) 使用基于主题的模型进行异常检测[138]。最上面一行显示了一辆越过停车线的车辆,中间一行表示一个乱穿马路的场景,最下面一行表示一辆正在进行异常转弯的车辆。(c) 使用多实例学习(MIL)的真实世界异常检测[168]。利用现场的异常评分对异常检测进行测量。(d) 在使用时空对抗网络(STAN)检测到的人行道上存在车辆[92]。顶行表示来自生成器的异常可视化,底行表示来自鉴别器的异常可视化。

A. Recent Surveys

在过去10年左右的时间里,在这个研究领域发表了一些有趣的调查报告。[124]的作者已经探索了使用视频轨迹的对象检测、跟踪、场景建模和活动分析。文献[176]从智能交通系统(ITS)的角度对车辆检测、跟踪、行为理解和事件检测进行了研究。[26]的作者对不同分类下的交通分析框架进行了深入的研究,并给出了集成来自多传感器信息的指标。文献[164]中的综述可能是第一个涉及异常检测技术的工作。它包括传感器、实体、特征提取方法、学习方法和场景建模来检测异常。在[162]中,从车载传感器的角度提出了一种面向对象的方法,用于目标检测、跟踪和行为分析,详细说明了过去十年的工作进展。文献[194]中提出的多摄像机研究涵盖了在多摄像机设置中与监视相关的研究。[171]的作者讨论了事件,这些事件被视为异常事件的一个子集,需要立即关注,无意、突然和意外地发生。[144]中的研究从计算机视觉的角度讨论了安全、安保和执法相关的应用。文献[181]讨论了人类活动的要素和行为理解框架。[25]的作者提出了通过人类实体的行为和相互作用来理解人类行为的研究。在[105]中研究了涵盖分析方面的智能视频系统。在[213]中介绍了具有特定应用领域的监视系统。文献[175]作者系统地将道路交通分析分为四个层次,即图像采集、动静态属性提取、行为理解及其服务。用于异常检测的数据集已包含在[140]中。[41]中讨论了使用不同类型传感器的交通监控。用于时空点检测的算法及其在视觉领域的应用已在[101]中涉及。[158]从安全的角度对交通实体进行了研究。[8]的作者探索了基于视频轨迹的分析和应用研究。[110]的作者讨论了处理紧急情况的各种方法,通过使用从视觉特征中提取的信息,借助各种学习机制评估风险、准备、响应、恢复和缓解。

在[115]中,作者介绍了异常人类行为识别的工作,重点放在行为表示和建模、特征提取技术、分类和行为建模框架、性能评估技术以及带有视频监控系统示例的数据集上。表一总结了过去十年中主要的基于计算机视觉的研究。在我们的调查中,我们特别关注与道路交通场景相关的异常检测的研究。异常在本质上是上下文关系。异常检测中使用的假设不能普遍应用于不同的交通场景。从数据的角度分析了异常检测方法在道路交通监控中的应用能力。在此过程中,我们根据场景表示、使用的特征、使用的模型和方法对方法进行分类。

基于计算机视觉的监控方法综述
焦点探索研究的区域
Tian (2015)[175] 车辆监控动态和静态属性提取:基于外观和运动的检测、跟踪、识别(车牌、类型、颜色和徽标)、车辆网络化跟踪;
行为理解:单摄像机研究、轨迹(聚类、建模和检索)和基于网络化多摄像机、有趣区域发现;
图像采集:交通场景特征、成像技术;
服务研究:违法行为与异常检测、安全监控、电子收费、交通流分析、交通规划与道路建设、环境影响评价。
Patil(2016) [140] 交叉口交通监控基于摄像机的分类:单目视觉、全目视觉和立体视觉;
车辆感知:方法和数据集;
挑战:初始化和预处理、车辆检测和跟踪;车辆检测方法:候选定位、验证;
车辆跟踪:表示和跟踪方法:区域、轮廓,基于特征和模型;
车辆跟踪算法:匹配,贝叶斯;
交叉口挑战;
监控系统:基于单目视觉和全方位视觉的车内监控;
车辆跟踪:路边监控系统,车内监控系统;
车辆行为分析
Li (2017) [101] 时空兴趣点(STIP)检测算法 STIPs算法;
检测挑战;
应用:人类活动检测、异常检测、视频摘要和基于内容的视频检索。
Shirazi(2017)[158] 交叉口安全分析垂直行为:轨迹、车速、加速度、转弯识别;
驾驶员行为:转弯意图、攻击性、感知反应时间;
行人行为:运动预测、等待时间、步行速度、交叉口速度和选择;
安全评估:间隙分析、威胁、风险、冲突、事故;
交叉口安全系统:驾驶员辅助系统(驾驶员感知增强、行动建议和人机界面、高级车辆运动控制授权)、基于基础设施的系统(路边警告系统、困境区域保护系统、决策支持系统)。
Ahmed(2018) [8] 基于轨迹的分析轨迹分析:数据集、提取、表示、应用;
聚类算法;
事件检测:方法和学习过程;
异常事件定位:方法和学习过程;
视频摘要和摘要生成。
Lopez-Fuentes(2018)
[110] 计算机视觉应急事件管理
应急分类:自然、人为(道路事故、人群相关、武器威胁、溺水、受伤人员、坠落人员);
监测目标:预防、检测、响应和理解;
采集方法:传感器位置、传感器类型、采集率和传感器成本;
特征提取算法:颜色,形状和纹理、时间(小波、光流、背景建模和减影、跟踪)和卷积特征;
使用机器学习的语义信息提取:人工神经网络、深度学习、支持向量机(SVM)、隐马尔可夫模型(HMM)、模糊逻辑。
Mabrouk(2018)[115] 异常行为识别行为表示;异常行为识别方法:建模框架和分类方法;
拥挤和非拥挤场景中的场景密度和运动对象交互;
性能评估:数据集和度量;
现有监视系统。

论文的其余部分安排如下。首先,在第II-A节中介绍了本文的背景和术语。在第II-B节中介绍了与异常检测相关的视觉场景学习方法。在第II-C节中阐述了异常检测方法和分类。在第II-D节中介绍了用于异常检测的特征和应用领域和II-E。第三节对现有的异常检测方法进行了批判性分析,并对异常检测的挑战和未来的可能性进行了讨论。

计算机视觉引导的异常检测研究

A. Background and Terminologies

在当前上下文中,特征被假定为数据,并以特征描述符的形式表示。根据特征描述符的长度,数据通常占据多维空间中的一个位置。

异常是不符合正常行为定义良好的概念的数据模式[29]。其他一些异常(anomalies)的同义词,如离群值(outliers)、不同应用领域的新颖性[58]。在本文的后续部分,我们使用异常(anomalies)或离群值(outliers) 。

1)异常分类:传统上,异常分为点异常[73,96,152],上下文异常[165,210]和集体异常[34,192]。如果数据远离通常的分布,则它们对应于点异常。例如,在繁忙道路上不移动的车辆可以称为点异常。上下文异常对应于在不同上下文中可以称为正常的数据。例如,在慢行交通中,如果一个骑自行车的人比其他人骑得快,我们可以称之为异常。相反,在密度较小的道路上,这可能是正常的行为。一组数据实例在一起可能会导致异常,即使它们单独可能是正常的。例如,在短时间内分散的一群人可以称为集体异常。在视觉监视的上下文中,常见的异常分为局部异常和全局异常[57、68、138、139、154、207]。全局异常可以出现在视频的一帧或一段中,而无需具体说明异常发生的位置[57、68、139]。局部异常通常发生在场景的特定区域内,但可能被全局异常检测算法忽略[138,154,207]。一些方法可以同时检测全局和局部异常[5,34,78,190,222]。

2) 挑战和研究范围:异常检测的关键挑战是:
(i)定义一个具有代表性的正常区域,
(ii)正常区域和异常区域之间的边界可能不清晰或定义不明确,
(iii)异常的概念在所有应用环境中都不相同,
(iv)用于训练和验证的数据有限,
(v) 由于不准确的感知,数据通常是有噪声的
(vi)正常行为随着时间的推移而演变。
我们根据对通过静态摄像机拍摄的视频进行的研究进行了这项调查。使用多个摄像头的异常检测包括额外的挑战,框架可能完全不同[12,57]。

B. Learning Methods

学习正常行为不仅与异常检测相关,而且还与不同的用例相关。模式分析[47]、分类[129]、预测[125]、密度估计[4]和行为分析[15]是其中的一些。学习方法可以分为有监督的、无监督的或半监督的。在有监督的学习中,使用标记的数据建立正常的轮廓[74,79,81,159]。它通常用于与分类和回归相关的应用程序。在无监督学习中,正常轮廓是根据未标记数据集元素之间的关系构造的[166]。半监督学习主要使用未标记数据和少量标记数据进行监督,以指定apriori已知的示例类[106,170]。如果学习是通过在标签信息可用时对数据进行交互式标记来实现的,则这种学习称为主动学习[42、109、134、179]。

一些方法在未标记的数据丰富且手动标记成本高昂时情况下使用。强化学习是应用于计算机视觉的一种较新的学习方法,是机器学习的一个领域,它关注的是软件代理(鉴别和生成器)如何在一个环境中采取行动,从而最大限度地实现某种累积报酬的概念[191195215]。表二总结了一些重要的工作。

学习模型不仅用于特征提取,而且还用于目标检测[188]、分类[82]、活动识别[130]、分割[86]、跟踪[183]、实体再识别[102]、对象交互分析[209]、异常检测[77]等。表3给出了异常检测中使用的一些重要学习方法。

C. Anomaly Detection Approaches

异常检测方法分类如图3所示。

1) 基于模型:基于模型的方法通过用一组参数表示数据的正常行为来学习。通常使用统计方法来学习模型的参数,因为它们试图将数据拟合到随机模型中。统计方法可以是参数的或非参数的。参数化方法假设正态数据是通过参数分布和概率密度函数生成的。例如高斯混合模型[99]、回归模型[34]等。在非参数统计模型中,结构不是先验定义的,而是根据数据动态确定的。例如基于直方图的[216]、Dirichlet过程混合模型(DPMM)[131]、基于贝叶斯网络的模型[22]等。贝叶斯网络在给定测试数据实例的情况下,估计从一组正常类标签和异常类标签观察类标签的后验概率。对于给定的测试实例,后验最大的类标签被视为预测类。通常,基于主题模型的异常检测方法使用贝叶斯非参数方法[84,126]。基于DNN的模型也可以归类为参数模型,其中参数是神经网络的权重和偏差[28,112,154]。然而,一些研究者将其视为一种分类方法[97],而许多方法(统计、分类、信息论、基于重构)被用于异常检测。基于神经网络的方法在模型学习中也采用了信息论的方法来减少期望输出和预测输出之间的交叉熵[87]。因此,也可将其归类为混合方法。

2)基于邻近性:在基于邻近性的方法中,异常是由异常与邻近异常之间的距离决定的。在基于距离的方法中,假设正常数据具有密集的邻域[38]。基于密度的方法比较一个点周围的密度和它的邻近点周围的密度。一个点与其相邻点的相对密度被计算为离群值[107]。

3) 基于分类:基于分类的异常检测方法假设分类器能够区分给定特征空间中的正常类和异常类。基于类的异常检测技术可以分为两类:一类和多类。基于多类分类的异常检测技术假设训练数据中包含正常类和异常类的标记实例,如果数据点属于异常类,则假设该数据点异常[32]。基于一类分类(OCC)的异常检测技术假设所有训练数据都有一个标签[139,190,192,205]。这种技术使用一个类分类算法学习正常实例周围的判别边界。支持向量机(SVM)可广泛用于视觉监控中的一类异常检测[29139]。基于规则的方法学习捕捉系统正常行为的规则[156],未被任何此类规则覆盖的测试实例被视为异常。

4) 基于预测:基于预测的方法通过计算特征描述符的预测和实际时空特征之间的变化来检测异常[108]。HMM和LSTM模型依赖于这种异常检测方法[20,118,119]。

5) 基于重建:在基于重建的技术中,假设正常数据可以嵌入到一个低维子空间中,在该子空间中,正常实例和异常出现的方式不同。基于数据重建误差测量异常。一些例子是,稀疏编码[172,208,218]、自动编码器[59]和基于主成分分析(PCA)的方法[107]。

6) 其他方法:有两种类型的集群方法。其中一个依赖于一个假设,即正常数据位于集群中,而异常数据不与任何集群相关联[145]。后一种类型基于一个假设,即正常数据实例属于大而密集的集群,而异常则属于小/小集群。模糊推理系统采用一个模糊数据点,利用数据点激发规则的隶属度和强度的相关规则来判断数据是否异常[98,201]。启发式方法通过直观地确定特征值、空间位置和上下文信息来确定异常。然而,许多实际系统并不完全依赖于一种技术,而是使用混合方法进行异常检测[33,123,187]。表四列出了上述分类。

D. Features Used in Anomaly Detection

如前所述,异常检测本质上是通过对提取的特征应用特定的技术来完成的。然而,在视觉监控中,原始数据是一个视频,它是一个帧序列。因此,从视频中提取相关特征是非常必要的,因为这些特征成为异常检测中使用的特定技术的输入。特征的选择对检测特定异常的能力起着关键作用。 在某些方法中,预处理主要涉及提取前景信息和 应用从前景查找对象的特定技术 [91、96、177、199]。 此外,从像素级特征中提取的直方图可以成为异常检测方法的输入 [38, 192, 193, 217]。某些方法使用检测到的对象或对象轨迹作为异常检测方法 [51, 104, 221] 的输入。深度神经网络 (DNN) 自动提取特征并将其用于异常检测 [92、155、182]。

特征通常以矢量的形式,与数据相对应。[59] 中建议的方法使用定向梯度 (HOG) 直方图、光流直方图 (HOF)、改进的轨迹特征 [184]以及使用 DNN 提取的自动特征。动态纹理的混合物已在 [96] 中使用。定向群加速 (HOSA) 的直方图与定向梯度 (HOG) 的直方图一起用于学习 [77]。[104] 的作者使用轨迹的 3D 管表示作为特征,使用相邻轨迹的上下文接近来学习正常轨迹。在[52]中,使用了与利用物体光流获得的每个轨迹对应的费舍尔矢量及其位置。 在[38]中使用了光流直方图和运动熵(HOFME)。 在基于DNN的系统中,高级功能会自动提取。

大致上,这些要素可以分为面向对象和非面向对象。分类如图 4 所示。使用面向对象的特征,可以通过提取对象 [89、103] 或轨迹 [51、104、121]来检测异常。 以特征描述符形式表示的对象或轨迹将成为异常检测的数据。在后一种方法中,像素或像素组特征、强度、光流或来自时空立方体 (STC,spatio-temporal cubes ) 的低级描述符已用于异常检测。 一些方法使用混合特征[39、45、90、94] 进行异常检测。表五总结了使用上述各种功能的一些重要工作。

表5:已使用特征的代表性工作
参考 特征 学习 异常标准 突出
Yang (2013) [207] 子轨迹 多实例 学习 最近的基于邻域的方法,基于豪斯多夫距离的异常检测阈值。 基于子轨迹的局部异常检测功能。
Roshtkhari
(2013) [152]
3D时空体积 码本模型 应用于可能性/显著性映射的阈值。 需要较少培训数据的快速异常本地化。不需要任何特征分析、背景/前景分割和跟踪,可以应用于实时应用程序。
Li (2014) [96] 时空补丁中的MDTs 动态纹理模型 对于时间异常,动态纹理的时间混合的负对数似然阈值,对于空间异常,显着性的阈值。 探测时空异常检测能力复杂拥挤的场景。
Kaltsa (2014) [77] 图片补丁上的HOSA+HOGs SVM   基于 OCSVM 的异常检测。 在拥挤的场景中,可进行本地噪声和异常检测检测。
Jeong (2014) [73] 轨迹和像素速度 混合    (LDA) GMM) 概率分数上的阈值。 在十字路口和道路上进行深入研究,以分析交通模式。
Zhu (2014) [222] 光流特征直方图 稀疏编码   重建成本阈值用作异常度量。 该方法可以检测本地和全局异常。虽然没有在交通路口进行实验,但可能适合繁忙的路口。
Kaltsa (2015) [76] 混合 (HOS + HOG + PSO) SVM 支持矢量数据描述(SVDD) 方法 [173] 进行异常检测。   利用蜂群智能提取强大的运动和外观特征来建模和检测异常。
Maousavi
(2015) [126]
定向小轨迹的直方图(HOT) LDA 基于对数似然的视觉单词固定阈值, 用于异常检测。   使用基于主题模型的异常检测和本地化对各种真实视频进行全面评估。
Cheng (2015) [34] 时空兴趣点(STIP)[43] 高斯    回归 局部异常:相对于STIP码本的视觉词汇,基于k-NN的似然阈值。全局异常:使用全局负对数似然阈值。 STIPS 有效地用于局部和全局异常检测。
Mendel(2016) [118] 使用CNN的自动视频特征 CONV-LSTM 预测输出与实际输出之间的重构错误。 当训练数据被宽松的监督以包含大部分正常事件时,有效识别异常。
Zhang(2016) [217] 光流直方图 聚类 基于Hamming距离的异常分数。 用于异常检测的局部敏感哈希滤波器。
Lan(2016) [91] HOG 启发式方法 使用检测到的对象的相对速度检测到异常。 一个有趣的研究,关于被遗弃的对象,可能会导致交通事故或其他一些不可能发生。
Hasan (2016) [59] 手工制作 HOG_HOF [184] 和 CNN 自动提取特征 双自动编码器模型 异常评分,即使用自动编码器中的重构误差得出的规律性评分 一个规律性分数,用作场景中正常性的度量,使用手工制作的功能和使用完全卷积前自动编码器的自动功能派生。
Hinami       (2017) [62]             CNN 的深度特征 Multi-test Faster RCNN。   结合使用语义特征进行异常检测 (a) 最近基于邻居的方法 (NN)、(b)OCSVM 和 (c) KDE 它解决了在存在误报的情况下,视频中联合检测和重新计数异常事件的问题。
Wen (2017) [200] 对象    (速度和方向) GMM   基于模型的异常检测。 在道路上可能会涉及到超速事件,不过作者已经测试了室内场景的方法。
Ravanbakhsh (2017) [148] 光流 帧 = 普通帧 GAN 异常分数,作为光流和外观重建误差的融合。   在拥挤的场景中进行全局和局部异常检测。
林 (2017) [104] 3D 管 SVM   使用OCSVM将上下文信息嵌入到轨迹热传递字段中。 这是第一种使用热场进行异常检测,可以检测上下文异常。
Liu (2017) [108] 自动提取光流、强度和梯度特征。 GAN 基于光流,强度,梯度损耗的峰值信噪比(PSNR)得分。 基于 DNN 的预测([151]) 和基于 GAN [3] 的鉴别器应用于使用 ([44]) 派生的光流帧,以检测正常事件中不确定性的鲁棒性和对异常事件的敏感度。
Colque (2017) [38] HOFME 直方图模型 基于最近邻阈值。 一种新的功能描述符 HOFME,可以处理与传统功能相比的各种异常场景。
Giannakeris(2018) [52] 轨迹Fisher矢量 SVM 使用 OCSVM 从 Fisher 矢量派生的异常分数。   使用检测车辆的强光流描述符进行异常检测,使用来自时空视觉体积的 DNN 和 Fisher 矢量表示。
Lee (2018) [92] 真帧和假帧 GAN   利用生成器器和鉴别器的损失得出异常分数。 可以检测包含复杂运动和频繁遮挡的数据集中的异常。
Kalta(2018) [78] 时空区域编码 多个 HDPs 区域片段重建的置信度得分。。 使用超像素(super-pixels)和兴趣点跟踪 [6] 在真实视频上应用的局部和全局异常检测。
Sultani(2018) [168] 视频剪辑 Deep MIL Rank-
ing Model
使用稀疏度和平滑度约束的异常分数。 应用于各种实际场景的泛型方法。

E. Applied Areas

在本节中,我们将讨论迄今为止针对场景和数据集的研究工作。典型的场景是路段、路口、停车场、高速公路、步行道等。表六总结了一些重要的研究工作。我们主要重点介绍基础技术、适用场景、异常类型和数据集。此类工作中常用的数据集有 QMUL [65],CA VIAR [1], UCSD [116], Bellview [214], Person [7],
UMN [122], ARENA [141][check again], Avenue [60], Uturn [18], MIT Trajectory [198], MIT [197], MIT parking trajectory [196], NGSIM [133], AIRS [9], PETS2009 [46], Behave [24], i-LIDS [11], ShanghaiTech [113], NVDIA
CITY [135], BOSS [168], Car Accident [169], and ldiap [178].

引用 技术 现场 异常 数据
Yang (2013) [207] Multi instance learning 大堂。 一个人走路、浏览、休息、倒下或昏厥,留下袋子,人/团体会合,一起散步,然后分开,两个人打架。 CAVIAR.
Roshtkhari (2013) [152] Code-book (Sparse) model 地铁,走道 异常行走模式、爬行、跳过物体、摔倒、走道上非行人、走错方向、人与一些其他事件(包括突然停止、快速奔跑、向错误方向行走和游荡)之间的不规则交互。 UCSC (Ped1, Ped2), Bellview and Person.
Jeong (2014) [73] LDA + GMM 结 走道,道路,公共聚集区。 非法U形转弯,车辆向相反方向行驶,the交通信号混乱,路面超速,人群异常速度,一辆汽车停在铁路上。 UCSC, UMN, MIT, QMUL and In-house datasets.
Li (2014) [96] Dynamic Texture model 走道,           路口 非行人实体在走道,人们走过走道或周围的草地,U转。 UCSD (Ped1, Ped2), U-turn and UMN.
Mo (2014) [123] Sparsity Model + OCSVM 路口,           道路,停车场。 男子突然摔倒在地,车辆差点撞到行人,车违反停车标志规定,车子在左转时未能向迎面驶来的汽车屈服,司机在停车标志前后退。 i-LIDS, CAVIAR and In-house dataset namely XEROX.
Patino (2014) [141] Statistical       with            heuristic approach 停车场,道路交叉口。 不寻常的物体轨迹,如U转弯、车辆在行人路上停车、在斑马通道外的两条车道之间停车、斑马通道外过马路的人、游荡和在一个地方停留更长时间的车辆/人员。 ARENA, CAVIAR and MIT trajectory dataset.
Akos (2014) [10] Hybrid (HMM + SVM + kNN) 交叉 口。 碰撞,附近的通行证。 NGSIM and AIRS.
Wang (2014) [192] OCSVM 走道,公共聚会场所。 当地人群分散。 PETS2009 and UMN.
Yun (2014) [211] Motion interaction field (MIF) symmetry model 结。 事故检测。 Car accident.
Xia (2015) [202] Low rank approximation on motion matrix created using optical flows. 路,十字路口 事故检测。 In-house dataset.
Cheng (2015) [34] Gaussian regression 道路,走道,地铁,交叉口。 非行人出现在走道,追逐,打架,一起跑,交通中断,走街,非法U-转弯,奇怪的驾驶。 UCSD   (Ped1), Behave and QMUL.
Xu (2015) [2] Hybrid (DNN + Autoencoder + OCSVM) 人行道。 非行人出现在走道   UCSD(Ped1, Ped2). UCSD(佩1,Ped2)。
Kaviani(2015) [84] Hybrid (LDA+STC+pLSA+FSTM) 道路,交叉路口. 事故检测 QMUL and In-house datasets. QMUL 和内部数据集。
Nguyen (2015) [134] Bayesiean non-parametric 交叉路口。
街头斗殴,游荡,卡车不寻常的停车,大卡车拦截摄像头
MIT. 与.
Pathak           (2015) [138] pLSA 路口,高速公路,道路。 停车线后,车道突然过马路 ldiap, highway (In-house) and iLIDS. ldiap,高速公路 (内部) 和 iLIDS.
Medel (2015) [119] ConvLSTM 人行道,道路。 道路- USCD (Ped1, Ped2) and Avenue. USCD (Ped1, Ped2) 和大道.
Zhou (2016) [220] CNN 交汇点、人行道、分散 c 划线。 UCSD, UMN, and U-turn. UCSD、UMN 和 U 型转弯。
Zhang (2016) [216] Hybrid (Histogram of Optical flow and Support Vector Data Description) 人行道 人行道上的非行人。 UCSD ped1.
Xu (2017) [205] OCSVM with SDAE features 人行道 人行道上的非行人。 UCSD.
Vishnu (2017) [180] Hybrid (MLR+DNN+vehiclecount) 公路 道路,路口 拥堵检测、救护车检测、事故检测。 In-house datasets.
Liu (2017) [108] Heuristic 道路、 走道 、路口。 投掷物体,游荡和奔跑,人行道上没有行人,在意想不到的道路区域存在人。 Avenue,    UCSD    Ped1,      UCSD Ped2 and ShanghaiTech.
Giannakeris (2018) [52] SVM 巷道 车祸,停车。 NVDIA CITY.
Chebiyyam (2017) [31] Heuristic using SVM and Region Association Graph 停车场,走道。 环绕特定区域的对象,在两个或多个区域之间持续一段时间进行目标切换。 MIT Parking trajectory, Avenue and a Custom dataset.
Yun (2017) [212] Sparse learning using motion interaction field [211] 路口、道路、公共聚集区。 车祸、人群骚乱和失控的战斗。 BEHAVE, UMN and Car accident.
Wang            (2018) [186] Sparse topic Model 结 巷道。 车辆偏离正常模式,模式冲突,车辆突然中断正常模式,走街路,车辆逆行,行人接近与车辆相撞。 i-LIDS and QMUL.
Kalta (2018) [78] HDP 交叉 口。 杰伊步行,非法U转弯,车辆方向错误,交通中断。 QMUL, ldiap and U-turn.
Sultani           (2018) [168] Deep MIL Ranking Model 交叉路口,道路,走道。 虐待、逮捕、纵火、袭击、事故、入室盗窃、打架、抢劫。 UMN, UCSC (Ped1, Ped2), Avenue, Subway, BOSS, Ab normal Crowd, and a set of Local datasets.

F . Online vs. Offline

应用于异常检测的大多数技术侧重于在线使用 [7、22、91、125、152、153、167]。某些方法 [83, 84, 111, 145] 可以称为接近实时, 因为检测只能通过从真实场景中分段测试视频来实现。离线方法也用于道路网络,尽管结果不是立即的,特别是数据分析 [30, 104, 117]。但是,在线方法更受青睐,因为它们会生成瞬时结果。表七给出了一个分类。

III. CRITICAL ANALYSIS

该讨论纯粹是在视觉监视的背景下进行的。尽管本次调查中讨论的大多数论文都针对异常检测,但我们已经观察到了这些方法的四个关键问题:(i)基于基准数据集的比较用于显示针对最新技术的有效性[111、148、190 ,205]。尽管基准可能与比较有关,但它们可能并不包含所有现实情况。例如,尽管异常检测在Avenue [60]数据集上运行良好,但是当使用两种建议的方法[37,111]应用于真实数据集QMUL [65]时,它会提供更高的错误警报。因此,我们认为,这些方法必须与现实生活中的场景相关,并且应适用于长时间播放的视频。 (ii)其次,由于上述趋势,为开发适用于各种数据集的通用技术开展的研究非常有限[32,161,168]。 (iii)除事故类型异常检测外,几乎没有任何独立的启发式研究[161,211]。这个问题不完全由于学习模型的局限性。它同样取决于数据集类型,并且缺乏独立阐明的特征提取。随着基于DNN的建模的出现,我们希望将来能够解决这些问题。面向对象的方法可能会比基于直方图的方法产生更好的结果,因为人类在检测异常时不会想到像素及其运动,而仅通过对象运动观察即可。研究人员可以制作包含不同照明条件下同一场景片段的数据集。 (iv)一些方法会去除背景并专注于前景特征以进行异常检测[50,91,172]。我们认为,不应忽略背景信息,因为异常也取决于环境条件。例如,在雨天发生事故的几率高于晴天。在准备数据集时,应考虑各种因素造成的道路障碍。在这方面很少有研究工作[40,91]。

A. Challenges and Possibilities

基于视频的异常检测面临的一些严峻挑战包括:

Illumination,照明:尽管已经提出了几种异常检测方法,但是可以处理照明变化的方法数量有限[84,99,202]。这是由于无法从视频中提取照明不可知特征。在不同的照明条件下使用的标准或方法对于实际应用可能会有所不同。

姿势和透视图:通常,聚焦在监视区域上的摄像机角度可能会对异常检测的性能产生重大影响,因为车辆的外观可能会根据其与摄像机的距离而变化[56、127、175]。尽管使用基于深度神经网络的方法提高了对象检测的准确性,但是在跟踪较小的对象时仍然存在挑战。人类可以轻松地检测到不同姿势下的物体,而机器学习在姿势变化下可能难以检测和跟踪同一物体。

Heterogeneous object handling,异构对象处理:异常检测框架主要基于对场景及其实体进行建模[20、34、68、73、84、118、153、157、168、189、207]。但是,有时很难对场景中的异构对象建模或了解场景中的异构对象的运动。

Sparse vs. Dense,稀疏与密集:在稀疏和密集条件下检测异常的方法不同。尽管某些方法[37,111]擅长在稀疏条件下定位异常,但是基于密集场景的方法会生成许多假阴性。

Curtailed tracks,轨迹缩减:由于许多异常检测均基于车辆轨迹[8、20、39、117、207],因此基本的跟踪算法被认为可以准确执行。尽管在过去十年中跟踪精度有所提高,但许多现有的跟踪算法在不同的情况下仍无法工作[136,175]。尽管人类可以轻松地在视觉上对其进行跟踪,但在遮挡下进行跟踪也是另一个挑战。

Lack of real-life datasets,缺乏真实的数据集:需要通过现实生活的数据集来查看异常检测技术的有效性。

基于前面讨论的差距,异常检测研究有足够的范围和要求。随着机器学习技术和负担得起的硬件的发展,基于计算机视觉的行为分析,异常检测和异常预测在未来几年内将跨越。基于深度学习的混合框架可以处理各种流量场景。这也可以帮助建立能够向利益相关者报告感兴趣事件的全自动流量分析框架。

IV. CONCLUSION

在本文中,我们重新审视了基于计算机视觉的重要调查论文。然后,我们探索了各种异常检测技术,这些技术可用于涉及车辆,人员及其与环境的相互作用的道路网络实体。我们以数据为主要单位来处理异常检测,详细介绍学习技术,学习中使用的功能,异常检测所采用的方法以及异常检测的应用场景。我们打算通过讨论各种可能性来探讨当前基于计算机视觉的技术中的差距,从而为未来确定方向。

异常是不符合正常行为定义良好的概念的数据模式[29]

典型的异常检测方法通过训练学习正常行为。任何明显偏离正常行为的行为都可以称为异常。

异常在本质上是上下文关系。异常检测中使用的假设不能普遍应用于不同的交通场景。(上下文异常)

传统上,异常分为点异常[73,96,152],上下文异常[165,210]和集体异常[34,192]
点异常:数据远离通常的分布
上下文异常:下文异常对应于可以称为正常的数据在不同上下文中可能为异常。
集体异常:一组数据实例在一起可能会导致异常,即使它们单独可能是正常的。

特征提取:面向对象和非面向对象
面向对象:提取对象 [89、103] 或轨迹 [51、104、121]来检测异常。以特征描述符形式表示的对象或轨迹将成为异常检测的数据。
非面向对象:像素或像素组特征、强度、光流或来自时空立方体 (STC,spatio-temporal cubes ) 的低级描述符

感兴趣特征:

Cheng (2015) [34] 时空兴趣点(STIP)[43]
Kalta(2018) [78] 时空区域编码
Sultani(2018) [168] 视频剪辑

真实的数据集 , 轨迹缩减 , 姿势和透视图




发表评论

电子邮件地址不会被公开。 必填项已用*标注