我院师生论文被CCF A类会议CVPR录用

新闻公告

我院师生论文被CCF A类会议CVPR录用

日期：2022-03-04访问量：

3月2日，国际学术会议CVPR 2022论文接收结果公布，中国人民大学高瓴人工智能学院师生有5篇论文被录用。国际计算机视觉与模式识别会议（Conference on Computer Vision and Pattern Recognition，简称CVPR）是由IEEE举办的计算机视觉和模式识别领域的顶级会议，在世界范围内每年召开一次，2022年是第40届会议，将于6月19-24日在路易斯安那州新奥尔良以线上线下混合形式举行。

论文介绍

论文题目：COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

作者：卢浩宇，费楠益，霍宇琦，高一钊，卢志武，文继荣

通讯作者：卢志武

论文概述：大规模的单塔预训练模型，在跨模态检索中取得惊人的检索效果。遗憾的是，由于它们大多采用耗时的实参跨模态交互方式，检索效率非常低。最近，像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果，然而，它们只考虑了模态之间的实例级对齐（因此仍有改进的余地）。为了克服这些限制，我们提出了一个新颖的协同式双塔视觉语言预训练模型，简称为COTS。总的来说，我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外，我们还提出了两种额外的跨模态交互。(1)Token级的交互—在不使用实参交互模型的情况下，我们设计了一个遮蔽视觉语言建模（MVLM）的学习目标，其中变分自编码器用于视觉编码，可为每个图像生成视觉token级别的标记。(2)任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标，其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下，我们提出的COTS在所有双塔方法中取得了最好的结果，与最新的单塔方法相比，COTS表现出相当的能力（但推理速度快10,800倍）。同时，我们提出的COTS也适用于从文本到视频的检索，在广泛使用的MSR-VTT数据集上取得了目前最好的结果。

论文介绍

论文题目：Balanced Audio-visual Learning via On-the-fly Gradient Modulation

作者：彭小康*，卫雅珂*，邓安东，王栋，胡迪

通讯作者：胡迪

论文概述：视听学习通过整合不同的感官，有助于全面了解世界。因此，多输入模态有望提高模型性能，但我们实际上发现即使多模态模型优于其单模态模型，它们也没有得到充分利用。具体来说，在本文中，我们指出现有的视听判别模型（其中为所有模态设计了统一的目标）可能仍然存在欠优化的单模态表示，这是由某些场景中的另一种主导模态引起的。为了缓解这种优化不平衡，我们提出了动态梯度调制，通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。此外，引入了动态变化的额外高斯噪声，以避免梯度调制引起的泛化下降。因此，我们在不同的视听任务上实现了对普通融合方法的相当大的改进，这种简单的策略也可以提升现有的多模态方法，这说明了它的有效性和多功能性。

论文介绍

论文题目：Learning to Answer Questions in Dynamic Audio-Visual Scenarios

作者：李光耀*，卫雅珂*，田亚鹏，胡迪，徐成良，文继荣

通讯作者：胡迪

论文概述：我们在本文中聚焦于视听问答(AVQA)任务，该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究，我们创建了一个大规模的AVQA数据集，其中包含超过45K个问答对，并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务，我们提出了一些基线方法，并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务，并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台，用于评估和促进视听场景理解和时空推理的研究。

论文介绍

论文题目：Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase.

作者：唐华镱、刘勇

通讯作者：刘勇

论文概述：多视图聚类通过挖掘多个视图的互补信息来提高聚类性能。然而，我们观察到视图数量的增加并不总能确保提高模型的聚类效果。为此，我们提出了一个基于深度学习的通用框架以降低视图增加带来的聚类性能下降的风险。具体地，该模型需要通过自动选择来自不同视图的特征来同时挖掘互补信息和去除无意义的噪声。这两个学习过程通过提出的双层优化目标被集成到统一的框架。在理论上，该框架的经验聚类风险不高于在视图增加前的数据和新增加的单视图数据上的经验聚类风险。同时，在基于散度的聚类损失下，该框架的期望聚类风险以高概率不高于在视图增加前的数据和新增加的单视图数据上的期望聚类风险。在基准多视图数据集上的综合实验证明了该框架在实现安全多视图聚类上的有效性和优越性。

论文介绍

论文题目：Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions

作者：薛宏伟*，杭天恺*，曾艳红*，孙宇冲*，刘蓓，杨欢，傅建龙，郭百宁

论文概述：我们研究了视频和语言（VL）的联合预训练，以实现跨模态学习并使大量的下游VL任务受益。现有的研究要么是提取低质量的视频特征，要么是学习有限的文本嵌入，而忽略了高分辨率的视频和多样化的语义可以显著增强跨模态学习。在本文中，我们提出了一个新颖的高分辨率和多样化的视频-文本预训练模型（HD-VILA），用于许多视觉任务。我们收集了一个具有两个特性的大型数据集：（1）高分辨率，包括371.5K小时的720p视频，以及（2）多样化，涵盖15个流行的YouTube类别。为了实现VL预训练，我们通过一个混合Transformer和一个多模态Transformer来共同优化HD-VILA模型，前者学习丰富的时空特征，后者进行视频特征与多样化文本的交互。我们的预训练模型在10个VL理解任务和2个文本到视觉的生成任务中取得了最先进的结果。例如，我们在zero-shot MSR-VTT文本到视频检索任务中超越了SOTA模型，相对增加了38.5％R@1，在高分辨率数据集LSMDC中增加了53.6％。学习到的VL嵌入在文本到视觉编辑和超分辨率任务中也能有效地产生视觉效果好、语义上的相关结果。

新闻公告

学院新闻

我院师生论文被CCF A类会议CVPR录用

友情链接

联系

关注我们