AI大模型在安全领域的应用也很广泛,比如对视频的异常检测(VAD)。像监控中发现视频中车辆碰撞;房子着火;打架斗殴等等异常情况进行监测报告。
这里介绍一个来自华科以及百度和密歇根大学的全新视频异常检测框架——Holmes-VAD。
这是一种视频异常检测系统,能够识别异常并对长达一小时的视频提供深刻的解释。
VAD主要识别视频中的异常事件,由于在公共安全领域具有相当大的应用价值,得到了广泛的研究和关注。
但先前的模型都普遍有两个难题无法解决。
一是无法找到可信的视频进行训练以及无法预测正常的数据,因而经常对未见过的或易混淆的正常数据存在偏见。
二是无法提供透明的异常检测解释和推理,即“异常是什么”和“为什么是异常”。这种不透明性限制了人类对系统的理解和参与。
无偏见且可解释的Holmes-VAD解决了这些问题。
为此团队在数据集的获取和处理方面下足了功夫。
团队构建了一个包含单帧时间注释和解释性文本描述的新基准数据集VAD-Intruct50k。
作为大规模多模态视频异常检测数据集,为框架的开发起到了十分重要的作用。
Holmes-VAD的模型架构主要包括视频编码器、时间采样器和多模态LLM三个关键组件。
团队将Holmes-VAD与LLaVA 进行了比较。正确和错误的解释分别以绿色和红色表示。
结果表明,Holmes-VAD 可以更准确识别视频中的异常并表现出强大的分析能力。