我院师生论文被国际学术会议ICLR录用

新闻公告

我院师生论文被国际学术会议ICLR录用

日期：2022-01-24访问量：

1月21日，深度学习学术会议ICLR 2022论文接收结果公布。中国人民大学高瓴人工智能学院师生有9篇论文被录用。ICLR 全称为国际学习表征会议（International Conference on Learning Representations），今年将举办的是第十届，预计于 4 月 25 日至 29 日在线上举行。

论文介绍

论文题目：Temporal Alignment Prediction for Supervised Representation Learning and Few-Shot Sequence Classification

作者：苏冰，文继荣

通讯作者：文继荣

论文概述：序列距离通过时间对齐处理具有不同长度和局部方差的序列。大多数序列对齐方法通过在预定义的可行对齐约束下解决优化问题来推断最优对齐，这不仅耗时，而且使端到端序列学习变得难以处理。在本文中，我们提出了一种可学习的序列距离，称为时序对齐预测 (TAP)。 TAP 采用轻量级卷积神经网络直接预测两个序列之间的最优对齐方式，因此只需要前向计算，推理过程中不涉及优化。 TAP 可以应用于不同的基于距离的机器学习任务。对于有监督的序列表示学习，我们展示了用各种度量学习损失训练的 TAP 以更快的推理速度实现了具有竞争力的性能。对于小样本动作分类，我们将 TAP 作为基于度量学习的episode训练范式中的距离度量。这种简单的策略取得了与最先进的小样本动作识别方法接近的结果。

论文介绍

论文题目：Task Relatedness-Based Generalization Bounds for Meta Learning

作者：管界超，卢志武

通讯作者：卢志武

论文概述：在假定n个训练任务和新任务都是从同一个任务环境中采样所得的时候，传统元学习理论会根据在训练任务上的经验误差得到在新任务上的泛化误差上界。这样得到的元学习泛化误差上界对于所有的假设空间一致成立。然而，很少有研究去探讨任务之间的相关性会如何影响n*m个训练样本的充分利用（假定每个任务中包含m个训练样本）。在这篇论文中，我们根据两个任务的数据分布函数之间是否存在双射，提出了一种新颖的任务相关性概念（称为几乎Π-相关），以此来解决以上问题。通过利用新提出的任务相关性，我们得到了阶数为O((nm)^(-1/2))的元学习泛化误差上界。此外，在研究基于深度神经网络表征学习方法的元学习模型时，我们给出了不依赖于网络参数总量的谱正则（spectrally-normalized）元学习泛化误差上界，并将该结果用于分类和回归问题的研究。最后，我们指出，本文新提出的“几乎Π-相关”概念实际上对应于由不同任务的分布函数所诱导出来的测度空间之间的“几乎同构”（almost isomorphism）。基于此，我们严格证明了：当样本空间是一个完备可分度量空间的时候，基于该样本空间的任意两个不同任务都是几乎Π-相关的。从而验证了我们所提出的任务相关性概念在元学习研究领域的合理性与实用性。

论文介绍

论文题目：Learning Versatile Neural Architectures by Propagating Network Codes

作者：丁明宇，霍宇琦，卢浩宇，杨林杰，王哲，卢志武，王井东，罗平

论文概述：这项工作探索了如何设计一个能够适应多种异构视觉任务的神经网络，例如图像分割、3D 目标检测和视频动作识别。因为不同任务中的网络架构搜索（NAS）空间和方法都是不一致的，这个问题非常具有挑战性。我们从两个方面解决这个问题。我们首先为多个任务设计了统一的网络空间，并在许多广泛使用的数据集上，包括 ImageNet、Cityscapes、KITTI 和HMDB51，来构建多任务的NAS基准（NAS-Bench-MR）。我们进一步提出了网络编码传播（NCP），它反向传播神经预测器的梯度，以沿着所需的梯度方向直接更新架构的编码，从而可以适用于多种任务和优化目标。

与通常专注于单个任务的现有的NAS技术不同，NCP 具有几个独特的优点。（1）NCP将架构优化从数据驱动转变为架构驱动，实现了在不同数据分布的多任务之间联合搜索架构。 (2) NCP 从网络编码中而不是原始数据中学习，使其能够跨数据集有效地更新架构。 (3) 除了我们的NAS-Bench-MR之外，NCP 在其他的NAS基准测试中表现良好，例如NAS-Bench-201。 (4) NCP对任务间、跨任务和任务内的深入研究，即多任务神经架构和不同任务之间的架构转移，显示了跨任务神经架构设计的重要性。例如，在减少了17%的计算量的情况下，NCP 返回的单个网络架构在 ImageNet-50-1000 和 Cityscapes两个数据集上分别实现了86%的准确率和77.16%的 mIoU，优于其他对比方案。更有趣的是，在相同的计算量下，NCP 能够实现从语义分割架构转移到3D目标检测，并优于直接在 3D 检测上搜索的架构。

论文介绍

论文题目：High Probability Generalization Bounds for Minimax Problems with Fast Rates

作者：李少杰，刘勇

通讯作者：刘勇

论文概述：极大极小问题 (Minimax) 在机器学习（ML）中的广泛应用受到越来越多的关注，例如强化学习、鲁棒优化、对抗性学习和分布式计算等。当前的研究主要集中在对一般极大极小问题的基本理解上，并着重于收敛行为。相比之下，研究泛化性能的工作要少得多。此外，现有的泛化边界几乎都是以期望形式导出的，高概率边界速率较慢。在本文中，我们提供了改进的泛化分析，并获得了极大极小问题几乎所有现有泛化指标的高概率推广界。然后，我们使用改进的学习边界为经典经验鞍点解（ESP）和几种流行的基于梯度的优化算法：梯度下降-上升（GDA）、随机梯度下降-上升（SGDA）、近点法（PPM），额外梯度（EG）和乐观梯度下降上升（OGDA）建立快速的高概率泛化边界。总之，对于极小极大问题更紧的泛化界，我们提供了一个系统的分析。

论文介绍

论文题目：Target-Side Data Augmentation for Sequence Generation

作者：解曙方，吕昂，夏应策，吴郦军，秦涛，刘铁岩，严睿

通讯作者：严睿

论文概述：自回归序列生成是机器学习和自然语言处理中的一个重要方法。每个元素在生成的时候，它同时基于输入条件和已经生成的元素。之前的数据增强方法，虽然已经在各种任务上取得的显著的效果，却只是被运用在了输入条件上。例如在输入的序列中增加噪声，或进行随机替换，打乱，掩码等操作。这些方法都忽视了对已生成元素的增强。本文提出了一种生成端的数据增强方法。在训练阶段，我们使用解码器的输出作为软标签，与真实数据一起生成增强的数据。这些增强数据则进一步用来训练解码器。我们在多个序列生成任务上进行了实验，包括对话生成，机器翻译，和摘要生成。在不使用额外数据和额外的模型参数的情况下，我们的方法在所有指标上显著的高于许多强力的基线模型，充分证明了我们的算法的有效性。

论文题目：Discovering Nonlinear PDEs from Scarce Data with Physics-encoded Learning

作者：饶成平，任普，刘扬，孙浩

通讯作者：孙浩

论文概述：从天体运动到潺潺水流，许多复杂的物理现象都能都通过一个微分方程（或控制方程）来描述。近些年涌现了许多从实验数据中发掘潜在控制方程的研究，并取得了很好的进展，但是如何从低质量的试验测量数据（如带噪声、小样本数据）中提取控制方程仍然是该领域内的一大难点。面对这一挑战，我们提出了一种新颖的“物理内嵌式离散深度学习”和“稀疏回归”耦合的方法，用来从低质量的测量数据提取控制方程。该方法有以下主要特点：（1）为了重建出高可信度的测量数据，我们提出了一种能够将物理信息（如控制方程中的已知项，物理系统的初始、边界条件等）嵌入网络结构的卷积、循环网络，形成物理编码网络，具有良好的表达能力；（2）基于重建后的高可信度数据，我们采用稀疏回归的方法以确定该时空系统的控制方程。为了验证该方法的有效性，我们成功将它应用于各类时空动力系统应用中，包括流体、反应扩散系统等。

论文介绍

论文题目： Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models

作者：鲍凡，李崇轩，朱军，张钹

通讯作者：李崇轩

论文概述：扩散概率模型是最近提出的一类重要的概率模型，在数据生成和密度估计等任务取得了领先的结果。扩散概率模型的瓶颈问题是采样的迭代过程较长，计算开销大。对其反向过程方差的精准估计会显著地缩短其采样过程，而既有的工作采用人工设计的方法选取方差估计。本文发现反向链的方差在最大似然意义下有闭式最优解，且其计算可以利用均值的拟合网络。基于这个发现，在保证采样效果不变的情况下，将现有模型的采样速度提高了20-80倍。

论文介绍

论文题目： Memory Replay with Data Compression for Continual Learning

作者：王立元，张幸幸，杨阔，Longhui Yu，李崇轩，洪兰青, 张世枫, 李振国, 钟毅，朱军

通讯作者：李崇轩，钟毅，朱军

论文概述：基于记忆回放的算法有助于缓解持续学习的“遗忘灾难”问题。过去的算法采用了固定大小的缓存来存储过去任务的原数据。本文初步探索了基于数据压缩的记忆回放方法，通过牺牲数据质量显著提高存储数据量。为了在持续学习的环境下，确定最优的压缩率，提出了基于行列式点过程的近似优化算法。在持续学习若干个公开标准上，所提方法得到了领先的结果。

论文介绍

论文题目：Learning Towards the Largest Margins

作者：周雄，刘贤明，翟德明，江俊君，高欣，季向阳

论文概述：深度表示学习的一个重要问题是如何设计合适的损失使得特征具有极强的判别性，而经典的softmax损失无法保证充分的判别行。主流的方法则是启发式在损失中引入间隔，但缺乏相应的数学解释。在本文中，我们尝试性地将特征表示学习解释为最大化间隔学习。特别的，我们引入了类别间隔和样本间隔的概念，用于描述类间可分性和类内紧凑性。为了学习更具有判别性的特征，损失函数应该尽可能获取更大的类别间隔和样本间隔。基于此，我们推导了通用的间隔损失用于分析现有损失的一般理论性质。整个最大化间隔学习的框架不仅仅可以用于解释现有的损失，我们还将其用于指导设计新的损失和工具，比如样本间隔正则项、最大间隔损失和0-中心正则项，能够高效率的处理平衡分布和不平衡分布。我们在一系列任务上都提供了充分的实验来验证该框架的有效性，包括视觉分类、不平衡学习、行人重识别和人脸验证等任务。

新闻公告

学院新闻

我院师生论文被国际学术会议ICLR录用

友情链接

联系

关注我们