본 연구는 개방형 어휘 비디오 이상 탐지(OVVAD) 문제를 다룬다. 기존의 비디오 이상 탐지 방법은 폐쇄적인 환경에서 작동하며, 훈련 데이터에 없는 새로운 이상 행동을 탐지하는 데 어려움이 있다.
이를 해결하기 위해 본 연구는 사전 학습된 대규모 비전-언어 모델을 활용한다. 구체적으로 OVVAD 문제를 클래스 무관 탐지와 클래스 특정 분류라는 두 가지 상호 보완적인 하위 과제로 분해하고, 이를 동시에 최적화한다.
클래스 무관 탐지를 위해 시간적 어댑터 모듈과 의미 지식 주입 모듈을 도입한다. 클래스 특정 분류를 위해 대규모 언어 모델과 생성 모델을 활용하여 가상의 새로운 이상 행동 샘플을 생성한다.
실험 결과, 제안 모델은 3개의 벤치마크 데이터셋에서 최신 기술 대비 우수한 성능을 보였다. 특히 알려지지 않은 이상 행동 탐지 및 분류 능력이 크게 향상되었다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Peng Wu,Xuer... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2311.07042.pdfConsultas más profundas