您所在的位置: 首页- 新闻公告- 学院新闻-

学院新闻

高瓴人工智能学院5篇论文被CCF A类会议CVPR录用
日期:2021-03-03访问量:

3月1日,中国计算机学会(CCF)推荐的A类国际学术会议CVPR 2021论文接收结果公布。中国人民大学高瓴人工智能学院师生有5篇论文被录用。国际计算机视觉与模式识别会议(Conference on Computer Vision and Pattern Recognition,简称CVPR)是计算机视觉会议的世界三大顶会之一(另外两个是ICCV和ECCV),于每年6月举办。2021年CVPR共有7015篇有效投稿,其中进入Decision Making阶段的共有5900篇,最终有1663篇突出重围被接收,录用率约为23.7%。

image002.png

论文介绍

论文题目:Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

作者:田亚鹏,胡迪,徐辰良

通讯作者:胡迪

论文概述:我们的日常生活中有许多同步的音频和视频事件。 在事件内部,音频场景与相应的视觉物体相关联; 同时,发声的物体可以帮助分离音频场景中的各个声音。 基于这种观察,本文提出了一种循环协同学习(Cyclic Co-Learning, CCoL)方法,该方法可以在统一的框架中共同学习发声对象的视觉物体对齐和视听声音分离。具体而言,我们可以利用对齐的对象声音关系来改善声音分离的结果;同时,受益于分离声音的判别信息,我们改进了用于发声物体对齐的训练示例采样,从而为这两项任务建立了协同学习循环,并使它们互惠互利。 大量的实验表明,本文提出的框架在这两个任务上均优于最新的方法,并且通过利用所提出的循环协同学习机制,它们可以彼此受益。

论文介绍

论文题目:Unsupervised Multi-Source Domain Adaptation for Person Re-Identification

作者:白泽辰,王之港,王建,胡迪,丁二锐

通讯作者:胡迪

论文概述:用于行人重识别(re-identification, re-ID)的无监督领域自适应(Unsupervised Domain Adaptation, UDA)方法旨在将re-ID知识从已标注的源数据迁移到未标注的目标数据源。在现有方法中,虽然基于伪标签的策略取得了巨大的成功,但这些方法仅使用来自某一单源域的有限数据进行模型预训练,使得大量丰富的多源标签数据无法得到充分利用。为了更加充分地利用有价值的标注数据,我们将多源概念引入到行人重识别任务中,其在训练期间使用了多个源数据集。但是,由于不同领域间存在的差异,简单组合不同的数据源只会带来有限的性能提升。在本文中,我们尝试从两个角度解决此问题,即领域特定视图和领域融合视图,它们彼此兼容互补。首先,本文提出一种修正特定领域的批处理规范化(RDSBN)模块,以同时减少领域的差异性并提升行人特征的判别性。其次,本文也提出了基于图卷积网络的多域信息融合(MDIF)模块,该模块通过融合不同域的特征以最小化域间距离。本文所提出的方法在很大程度上优于最新基于无监督领域自适应的行人重识别方法,在没有任何后处理技术的情况下甚至可以达到与监督方法相媲美的性能!

论文介绍

论文题目:L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing

作者:杨国兴, 费楠益, 丁明宇,刘光镇,卢志武,向滔

通讯作者:卢志武

论文概述:人脸属性编辑需要同时满足两个要求:(1)属性的正确性—目标属性应该正确地出现在被编辑后的人脸图片上;(2)不相关部分的保持性—任何其他的无关信息(比如身份等)在编辑时不应该被修改。对人脸属性编辑来说,同时满足这两个要求仍然是一个较大的挑战。因此,现有的工作通常采用空间注意力机制或隐空间解耦来应对这一挑战。具体而言,前者假设每个属性都有一个明确定义的局部区域;相对于全局属性,它们通常能够更加有效地编辑局部属性。后者把一个固定的预训练好的GAN的隐空间解耦成不同的属性相关部分,但是它们不能和GAN一起被端到端地训练,这通常会导致次优解。为了克服这些局限性,本文提出了一个全新的隐空间解耦GAN模型—L2M-GAN。该模型可以被端到端地学习,并且可以有效地编辑局部属性和全局属性。L2M-GAN主要有两个创新点:(1)GAN的隐空间向量被解耦成属性相关和属性无关的向量,并引入了正交的限制来增强它们的解耦。(2)学习一个属性相关向量的转换器来操纵属性值。值得注意的是,转变后的向量仍然服从相同的正交限制。通过加强原始(或被编辑后)的属性相关的隐向量与属性无关的隐向量正交性,L2M-GAN在属性正确性和无关部分保持性之间取得了较好的平衡。在CelebA-HQ上的大量实验表明,L2M-GAN与最新的GAN相比有显著的改进。我们的工作也为GAN的语义解释提供新思路。

论文介绍

论文题目:Counterfactual VQA: A Cause-Effect Look at Language Bias

作者:牛玉磊,汤凯华,张含望,卢志武,华先胜,文继荣

论文概述:近期研究发现,视觉问答模型在训练过程中会倾向于探索数据中的语言偏差,并依赖语言偏差进行推理和作答。这一倾向使得视觉问答模型未能充分地从视觉和语言两个模态中学习多模态知识,进而做出错误的回答。本文研究如何将视觉问答任务中的语言偏差进行捕获并去除。本文从因果推理的视角出发,提出了一种全新的基于反事实推断的视觉问答框架。反事实推断框架将语言偏差建模为问题对答案的直接因果效应,并通过从总体因果效应中减去语言的直接效应的方式去除语言偏差。实验证明反事实推断框架能够有效地克服语言偏差的影响,并具有良好的泛化性和鲁棒性。此外,本文从因果推理的角度为部分相关工作提供了理论解释。

论文介绍

论文题目:HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers

作者:丁明宇,连晓晨,杨林杰,王鹏,靳潇杰‬ ,卢志武,罗平

论文概述:高分辨率(HR)表征对于分割,检测和姿态估计等密集预测任务很关键。以往的专注于图像分类的神经架构搜索(NAS)方案往往忽视了学习高分辨率表征。本篇工作提出了通过有效编码多尺度特征并同时保留高分辨率表示来在多种任务上都搜索出高效和准确的神经网络,我们称其为HR-NAS。在HR-NAS中,我们重新设计了NAS的搜索空间和搜索策略。为了更好地编码多尺度信息,我们首先设计了一个其计算复杂度可以根据不同目标函数和计算预算动态改变的轻量级自注意力变换网络(Transformer);为了保留网络的高分辨率表示,HR-NAS采用基于HRNet的多分支结构来编码部分分辨率的特征;最后,我们提出了一个细粒度的搜索策略来训练HR-NAS,以在不同的任务和计算资源下高效遍历搜索空间并寻找最优架构。在较小的资源预算下,HR-NAS在三个密级预测任务和分类任务上都达到了最优的网络精度和复杂度权衡。

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox