机器之心专栏
作者:张宋扬、彭厚文、傅建龙、卢亦娟、罗杰波
当时间的维度从一维变为二维时,时间序列的建模方法也需要相应改变。针对视频时间定位问题,提出了多尺度二维时间图和多尺度二维时域邻近网络(MS-2D-TAN)的概念。本文在AAAI 2020 1的基础上,将单尺度二维时间建模扩展为多尺度版本。新模型考虑了不同时间尺度下视频片段之间的关系,速度更快,精度更高。本文在基于文本的视频时间定位任务中验证了该方法的有效性。相关内容将发布在TPAMI上。
时间可以是二维的吗?这是个好问题!
我们经常把物理世界定义为三维空间,把时间定义为一维空间。然而,这不是定义它的唯一方式。最近,美国罗切斯特大学和微软亚洲研究院的学者们脑洞大开,提出了一种新的时间表达方式,将时间定义为二维!
时间在二维空间中是如何表达的?童鞋给出的答案如下:在二维空间中,我们定义一个维度表示时间的开始时间,另一个维度表示持续时间;这样,二维空间中的每个坐标点都可以表示一个时间片(例如,从a时刻开始,持续b秒的时间片)。
在二维空间的这种定义下,如果把单位时间尺度设置得更小,就可以在时间域上观察到更局部、更微观的关系。如果将单位时间尺度设置得更大,观察到的关系会更全局、更宏观。如果能有效地将两者结合起来,我们会对片段之间的关系有更丰富的描述。
(引用自https://www.msra.cn/zh-cn/news/features/aaai-2020-2d-tan)
基于文本的视频时间定位的目标是给定一段文本,在视频中找到该文本对应的视频片段,并给出该片段的开始时间和结束时间。如图1查询A,给一段文字“一个人吹萨克斯”和一段视频。该任务希望找到与文本描述最匹配的片段。以往的很多作品都独立考虑了片段与文本的相似性,而忽略了片段之间的上下文信息。如图1查询C,为了定位“这个人又吹萨克斯了”,如果只看视频的后半段,很难定位到“又”这个词。此外,如图1查询B所示,许多高度重合的片段具有相似的内容,如果不比较这些片段,很难区分哪个片段与文本描述最匹配。
为了解决这个问题,《AAAI 2020》中提出了2D-谭(Time Domain Neighborhood Network)。网络的核心思想是在二维时间图上定位视频时间。如图1(a)所示,图中的(I,j)表示从I开始,持续j ^ 1的时间段。对于不同长度的线段,我们可以用坐标上的距离来定义它们的接近程度。有了这些关系,我们就可以用2D-谭来模拟这种依赖性。此外,由于2D-谭将这些片段视为一个整体,因此习得的片段特征更具特色。
地址:https://arxiv.org/abs/2012.02646码地址:https://github.com/microsoft/2D-TAN/tree/ms-2d-tan这里二维时间图的单位时间长度决定了定位的精度。为了使定位更加精细,本研究设计了多尺度二维时间图,如图1(b)所示。本研究选取不同的单位时间长度,构建不同精细度的二维时间图。这样,模型可以在更大的时间范围内学习片段之间的依赖关系,同时每个片段可以获得更丰富的上下文信息。另一个优点是,这种多尺度建模也可以看作是一种稀疏采样方法,降低了特征提取和段间建模的计算成本,将计算复杂度从二次降低到线性。
图1二维时序图示意图。(一)密集的单尺度二维时序图。黑色坐标轴分别表示开始和持续时间,灰色坐标轴表示对应的开始时间和持续时间。二维图中的红色程度表示目标片段和候选片段之间的匹配程度。这是预定义的单位持续时间。白色方块表示无效的视频剪辑。(b)它表示稀疏的多尺度二维时间图。多尺度2D时间图由若干个2D时间图组成,每个2D时间图的单位持续时间不一样()。灰色网格表示有效但非候选的视频剪辑。其他颜色的定义同上。通过在几个小图上建模,可以减少计算开销。
下面我们将详细介绍这种方法。
多尺度二维时域邻近网络(MS-2D-TAN)
本文提出的模型如图2所示。该模型由三个模块组成:文本编码模块、视频二维时间特征图模块和多尺度二维时间邻近网络。下面将逐一介绍每个模块。
图2 MS-2D-谭框架图。
语句的文本特征
ng>该研究首先将各个单词用 GloVe 进行编码,再输入到 LSTM 中。该研究将 LSTM 的输出取平均作为语句的特征向量。
视频的二维时域特征图
该研究首先将视频分割成N个小的单元片段(clip),再通过预训练好的模型将这些片段抽取特征,大小是N×d^V。候选片段由多个连续的单元片段所构成,且长度并不相同。为获取统一的片段特征的表示,该研究将抽取好的单元片段特征通过叠加卷积的方式获得所有候选片段特征。再根据每个候选片段的开始时刻和持续时间,将所有的候选片段排列成一个二维特征图。
当研究人员使用N - 1 个卷积层可获得所有有效片段的特征。但当N较大时,这样的计算开销也往往较大。因此,该研究采用了一个稀疏采样的方式。如图 2 所示,该研究对较短的片段进行密集的采样,而对较长的片段进行稀疏采样。先用 A 层步长为 1,核尺寸为 2 的卷积获得短片段的特征,之后每隔 A/2 个卷积层,步长增加一倍,逐步获得较长片段的特征。通过这种方式可以不用枚举出所有的片段,从而降低计算开销。前者获得的二维特征图我们称之为稠密二维特征图,而后者则称之为稀疏二维特征图。
通过多尺度二维时间邻近网络定位
有了视频的稀疏二维特征图(图 2 中蓝色立方体)和文本特征(图 2 中黄色立方体),该研究将其进行融合,获得融合的稀疏二维特征图(图 2 中绿色立方体)。该研究再根据不同的时间尺度,将单一尺度的稀疏二维特征图,转化成一组稀疏的多尺度二维特征图。对于每个尺度的二维特征图,该研究使用一系列的 gated convolution 对每个片段和其邻近片段的关系进行建模,并通过一个全联接层获得各尺度中各片段最终的得分。
训练和测试
在训练过程中,每一个尺度都会有一个对应的损失函数,该研究将二元交互熵 (Binary Cross Entropy) 作为模型的损失函数,同时使用一个经过线性变换的 IoU (intersection over union)的值作为损失函数中的标签。该研究将所有的损失函数加在一起作为整个模型的损失函数。
在测试时,该研究根据特征的位置,得到每个片段的得分,并根据 NMS 对其进行筛选。如果一个片段存在于多个得分图中,那么选取最高的得分作为其得分。
实验结果
该研究在 Charades-STA <2>, ActivityNet Captions <3> 和 TACoS <4> 三个数据集上评测。实验结果如表 1-3 所示。为了公平对比,该研究使用了和前人方法相同的视频和文本特征,且所有模型的超参保持一致。从实验结果中,无论使用哪种特征,该研究提出的 MS-2D-TAN 方法均能获得前两位的成绩。而在某些数据集上,进一步调整超参可以获得更好的性能,如表 3 的 MS-2D-TAN*。
表 1 Charades-STA 的实验结果
表 2 ActivityNet Captions 的实验结果
表 3 TACoS 的实验结果
时间和内存的开销
该研究还对比了时间和内存的开销。图 3 中对比了稠密单尺度二维特征图,稀疏单尺度二维特征图 <1> 以及本文提出的稀疏多尺度二维特征图。可以发现在当视频长度较长时,使用稀疏多尺度二维特征图可以大幅减少时间和内存的开销。在图 4 中该研究也与其他方法在 TACoS 上进行了对比。当研究人员使用一个隐层参数量较小的模型 MS-2D-TAN (Small) 时, 该研究的方法可以在保证速度和内存开销稍小的前提下,比其他方法获得更高的精度。而使用较大参数量的 MS-2D-TAN 可以进一步提高精度。
图 3 三种不同二维特征图时间开销的对比。N 表示多少个单元片段(clip)
图 4 与其他方法的时间和内存开销对比
结语
本文针对基于文本的视频时间定位提出了一种全新的多尺度二维时间表示方式并提出了一种新的多尺度时域邻近网络(MS-2D-TAN)。该模型可以很好的利用邻近时域的上下文信息,并学出有区分性的视频片段特征。该研究的模型设计简单,也同时在三个数据集上取得了有竞争力的结果。
参考文献:
<1> Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2020
<2> Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017
<3> Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017
<4> Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013