论文阅读-Unbiased Scene Graph Generation in Videos
2023-06-18 22:55:00

最近一直忙着找实习,准备找工作,学术上基本没怎么顾及,原计划的第二块关于动态场景图的研究内容一直没开始。明天开组会轮到自己了,临时临时抱佛脚看两篇。

Unbiased Scene Graph Generation in Videos, CVPR2023的一篇文章。

图片场景图生成领域一直着力于非偏场景图生成的问题,现在视频场景图也开始关注这个问题了。

背景

img

作者首先将STTran 和TRACE的生成结果在图b上表示了一下,整体来看,这两个模型在尾部关系上的表现的确不如头部关系上的表现。另外,作者还提及了一下其他因素,比如不准确/完整的标注、运动模糊(Emotion Blur)、预测的时间波动,都会导致训练动态 SGG 模型的偏差。因此,视觉关系预测具有很高的不确定性,从而使动态 SGG 的挑战增加了许多倍。

文中,sgg中的不确定性被分为两大类:任意不确定性、认知不确定性

**任意不确定性:**将缺失的注释、多标签映射和三元组可变性识别为标记噪声,再加上视频中固有的时间波动可以归因于可以建模的数据噪声

**认知不确定性:**缺乏足够的观察 [28] 而导致的误导性模型预测有关,并且在长尾数据中更为普遍

因此,本文采用基于混合密度网络 (MDN) [9、28、54] 的单一模型不确定性概念,并将谓词分类头设计为高斯混合模型 (GMM) [8、9]。如果样本的预测不确定性很高,则基于 GMM 的谓词分类损失会对模型进行惩罚,从而减弱噪声 SGG 注释的影响。

何为混合密度网络?

混合密度网络已成功地在许多深度学习任务中对预测不确定性和噪声衰减进行建模。它们已被用于许多涉及噪声数据的任务,例如强化学习 [9]、主动学习 、语义分割 ,甚至用于补偿图像识别中的数据不平衡 。其实也是很简答的东西,如下图,就是模型输出的参数换成了高斯混合模型的参数而已。

img

另外,要想生成准确性高的图,不仅需要依靠准确的识别边,也得需要准确地识别节点,也就是物体。与图像不同,视频涉及到运动模糊等等干扰因素,单纯地实现物体追踪来保证物体在不同时间节点上的一致性,会使模型很臃肿,因此本文采用的Transformer结构设计了网络。

记忆引导的low shot和长尾学习?

记忆引导训练策略 [48、52] 已经成功地解决了数据稀缺的学习问题,例如少样本学习 [15、27、51] 和长尾识别 [45、65]。它们通过将知识从数据丰富的类别转移到数据贫乏的类别来实现可概括表示的学习。我们在本文中利用这些原则来学习视频中视觉关系的更公正的表示。

直译本文的Contribution:

本文的主要贡献是:1) TEMPURA 对与动态 SGG 相关的预测不确定性进行建模,并减弱噪声注释的影响以产生更无偏的场景图。 2) 利用一种新颖的记忆引导训练方法,TEMPURA 通过将知识从高频谓词类扩散到稀有谓词类来学习生成更多无偏谓词表示。 3)利用基于变换器的序列处理机制,TEMPURA 促进了时间上更加一致的对象分类,这在 SGG 文献中相对未得到解决。 4)与现有的最先进方法相比,TEMPURA 在 mean-Recall@K [56] 方面取得了显着的性能提升,突出了其在生成更多无偏场景图方面的优势。

网络结构

img

PEG: Predicate Embedding Generator, 由于基于Transformer模型已被证明能够有效的融合时间信息和空间信息,所以本文将 PEG 建模为STTran

OSPU: Object Sequence Processing Unit,对象序列处理单元,用于时间上一致的对象分类

MDU:Memory Diffusion Unit,记忆扩散单元

GMM:Gaussian Mixture Model,高斯混合模型,用于解决整体噪声问题。

Object Detection and Temporal Consistency

使用了multi-head attention 结构,其原理如下:

img

Predicate Embedding Generator

img

编码器:

img

解码器

img

Memory guided Debiasing

由于 SGG 数据集中的长尾偏差,直接 PEG 嵌入 Rtem 对稀有谓词类有偏差,因此需要对它们进行去偏。

记忆库 Ω由一组记忆原型组成,每个原型都是谓词类的抽象,并作为其对应的 PEG 嵌入的函数计算。Ω 以渐进的方式计算,其中模型的最后状态用于计算当前状态的记忆,即使用时期 α−1 的模型权重计算时期 α 的记忆。

img

渐进式记忆计算

img

记忆扩散

img

Uncertainty Attenuated Predicate Classification

img

损失函数

img

实验结果

img

img

参考资料

  1. [2304.00733] Unbiased Scene Graph Generation in Videos (arxiv.org)
  2. 混合密度网络(MDN)进行多元回归详解和代码示例 - 知乎 (zhihu.com)