4月26日,中国计算机学会(CCF)推荐的A类国际学术会议ICML2023论文接收结果公布。中国人民大学高瓴人工智能学院师生有12篇论文被录用。国际机器学习大会(International Conference on Machine Learning)被公认为机器学习、人工智能领域声望最高的会议之一,在世界范围内每年召开一次。ICML2023共收到6,538篇投稿,最终录取1,827篇,录用率为27.94%。
论文介绍
论文题目:Graph Neural Networks with Learnable and Optimal Polynomial Bases
作者:郭雨荷,魏哲巍
通讯作者:魏哲巍
论文概述:谱域图神经网络最近有不少工作,基本上都是利用不同的多项式基去近似图卷积。从实践和理论出发,我们认为对不同的输入信号和图结构,最合适的多项式基是不一样的。基于此,本文提出两种模型:(1)FavardGNN。它立足于正交多项序列的Favard’s定理和Three-term Recurrence,允许滤波器从整个标准正交多项式基的空间中学习基,取代了之前根据已有知识精心选择某个固定多项式基的模式;(2)OptBasisGNN。它提出了求解收敛性质最优的多项式基的高效方法。该最优多项式基的定义在前继工作中被提出,但被认为不能在可承受时间内解出,本文通过Three-term Recurrence的思想实现了对其隐式、高效的利用。
论文介绍
论文题目:Semi-Offline Reinforcement Learning for Optimized Text Generation
作者:陈畅与,王希廷,靳轶乔,Victor Ye Dong,董力, Jim Cao,Yi Liu, 严睿
通讯作者:严睿,王希廷
论文概述:在强化学习中,主要有两种与环境交互的设置:在线和离线。在线方法以昂贵的时间成本探索环境,而离线方法通过牺牲探索能力减少时间成本。我们提出了半离线强化学习,这是一种新的范式,可以平滑地从离线设置转到在线设置,平衡探索能力和训练时间成本。我们也为比较不同的半离线强化学习设置提供了一个理论基础,在半离线设置的马尔可夫决策过程下,我们提出了在训练成本、渐进误差和过拟合误差上界等方面最优的强化学习设置。广泛的实验表明,我们的半离线强化学习方法在各种文本生成任务和数据集中是有效的,与最先进的方法相比,可以达到可比的或通常更好的性能。
论文介绍
论文题目:Towards Understanding the Generalization of Graph Neural Networks
作者:唐华镱,刘勇
通讯作者:刘勇
论文概述:图神经网络(GNN)在图表征学习中得到了广泛的应用。尽管它们在应用上取得了非凡的成功,从理论上理解其工作机制仍处于初级阶段。在本文中,我们从泛化的角度朝着这个目标前进。具体而言,我们在考虑随机优化的情况下,建立了转导学习(Transductive Learning)的泛化间距 (Generalization Gap)和梯度的高概率界。然后,我们给出了众多流行GNN的泛化间距的高概率界,并讨论了影响泛化能力的因素。这些理论结果揭示了GNN的网络结构如何影响模型的泛化能力。基准数据集上的实验结果表明理论结果能较好地与实际情况符合。我们的研究结果为理解GNN的泛化带来新的见解。
论文介绍
论文题目:Distribution-dependent McDiarmid-type Inequalities for Functions of Unbounded Interaction
作者:李少杰,刘勇
通讯作者:刘勇
论文概述:集中不等式在高维统计和机器学习中发挥着至关重要的作用。本文为三类流行分布(次高斯分布、次指数分布和重尾分布)提供McDiarmid指数不等式的无界类比。与最近的结果相比,我们在次高斯和次指数情况下的不等式是分布相关的,而重尾情况下的不等式在以前的工作中没有研究过。通过对样本均值、U-统计量和V-统计量的应用,说明了不等式的有用性。
论文介绍
论文题目:Optimal Convergence Rates for Agnostic Nystroem Kernel Learning
作者:李健,刘勇,王伟平
通讯作者:刘勇
论文概述:Nystroem低秩近似在处理大规模核矩阵和神经网络方面潜力巨大。然而,目前Nystroem方法的最优率理论通常假设目标回归必须位于假设空间中。本文针对这些问题,提出了一种精细的Nystroem近似广义分析,放松假设至不可知情形,即目标回归不在假设空间。具体而言,我们证明了Nystroem近似在不可知条件下仍能实现与容量相关的最优速率。利用数据依赖采样,我们首次为Nystroem近似方法推导出适用于整个不可知条件的容量相关最优速率。
论文介绍
论文题目:Consistency of Multiple Kernel Clustering
作者:梁伟轩,刘新旺,刘勇,马川,赵云平,刘哲,祝恩
论文概述:一致性在学习理论中有着重要地位。然而在多核聚类算法中,核组合系数的一致性却没有被充分研究。在本文中,作者通过分析一个名为SimpleMKKM的核组合系数的一致性,对上述问题进行了探索。在基于特征值间隔的假设下,作者给出了该算法在训练集及全样本空间上得到系数差异的非渐近上界,据此可知该算法具备一致性。利用这一结论,作者建立了该算法的额外聚类风险上界。此外,作者还研究了算法在训练集及其随机采样子集上学习到系数的差异,并且据此提出了一种具备理论保证的大规模拓展方案。最后,大量的实验结果验证了所证明理论的正确性和所提出算法的有效性。
论文介绍
论文题目:End-to-End Full-Atom Antibody Design
作者:孔祥哲,黄文炳,刘洋
通讯作者:黄文炳,刘洋
论文概述:抗体设计是生命科学、药物发现领域重要且充满挑战性的问题。当前基于机器学习的抗体设计方法存在明显缺点:1. 只能解决抗体设计整体流程中的某个子问题;2. 没有考虑全原子级别的表示。为了解决这些问题,本文在我们ICLR 2023论文MEAN的基础上提出端到端模型dyMEAN,能在只给定抗原表位结构与不完整抗体序列的前提下,实现抗体的序列预测以及抗原-抗体复合物结构预测。具体来说,我们首先通过数据集中抗体较为稳定的残基来初始化构建抗体结构,然后提出影子paratope桥接抗体与抗原表位。1D序列和3D结构都通过自适应多通道等变编码器进行更新,该编码器能够在考虑完整原子时处理可变大小的蛋白质残基。最后,更新后的抗体通过对齐真实paratope和影子 paratope的位姿,实现与抗原表位的对接。表位CDR-H3设计、复杂结构预测和亲和优化实验证明了我们的端到端框架和全原子建模的优势。
论文介绍
论文题目:Subequivariant Graph Reinforcement Learning in 3D Environments
作者:陈润发*,韩家琦*,孙富春,黄文炳
通讯作者:孙富春,黄文炳
论文概述:论文被接收为oral论文。在强化学习(RL)中,学习一个通用的共享策略,用于控制不同异构形态的智能体进行运动,具有重要的研究意义。为了实现这一目标,模块化RL得到了广泛研究。然而,现有的模块化RL基准环境对于起始点和目标点的选择非常受限,要求智能体仅能在2D平面内进行运动。为了克服这个问题,本研究提出了一种新颖的模块化RL基准设置,称为三维空间等变图强化学习(3D-SGRL)。具体而言,我们在3D空间中设计了一组更符合真实物理世界且具有挑战性的基准环境,允许智能体以任意起点位置和任意方向进行全自由度的探索。此外,为了优化策略在扩展的状态-动作空间中的表现,我们提出在策略函数和Q函数的建模中注入几何对称性,即等变性,以便使得策略能够在各个方向上具有泛化能力,从而提高探索效率。为了实现这一目标,我们设计了一种新颖的模型SubEquivariant Transformer(SET),利用等变的注意力机制,在几何图上进行更具表达力的信息交换。最后,我们在提出的基准环境上对所提出的方法进行了评估,结果显示在单任务、多任务和零样本泛化场景下,我们的方法在性能上一致且显著优于现有方法。我们还进行了大量的消融实验来验证我们的设计。
论文介绍
论文题目:Revisiting Discriminative vs. Generative Classifiers: Theory and Implications
作者:郑晨宇,吴国强,鲍凡,曹越,李崇轩,朱军
通讯作者:李崇轩
论文概述:在深度模型日趋增大,很多工作集中于下游轻量级微调乃至直接linear evaluation的背景下,我们重新审视了经典的“判别式 vs 生成式”线性分类器收敛到渐进误差的理论分析 (Ng & Jordan 2002),显著弱化了其直接优化0-1损失的假设,并从二分类推广至多分类,在深度表示学习的框架里证明了生成式线性分类器如 naive Bayes 相较于 logistic regression 的统计高效性,即 O(log dim) vs O(dim) 的样本复杂度。在模拟实验和多个现代的视觉预训练模型中,包括 resnet, vit, clip, moco, simclr, mae, simmim,验证了理论的正确性;其中,在全监督预训练的模型中,实验发现了naive Bayes 在下游任务数据稀少情况下具有优越性,复现了浅层算法中的“two regimes ”现象 (Ng & Jordan 2002)。另外,在技术上我们提出了一种新的 multi-class H-consistency框架。
代码链接:https://github.com/ML-GSAI/Revisiting-Dis-vs-Gen-Classifiers
论文介绍
论文题目:Towards Understanding Generalization of Macro-AUC in Multi-label Learning
作者:吴国强,李崇轩,尹义龙
论文概述:Macro-AUC是多标签学习中各类别AUC的算术平均值,通常在实践中被使用。然而,对其的理论理解远远不足。为了解决这个问题,我们描述了基于相应替代损失对Macro-AUC的各种学习算法的泛化属性。我们从理论上确定了影响泛化边界的数据集的一个关键因素:标签类别的不平衡性。我们关于考虑不平衡性的泛化界的结果表明,广泛使用的单变量损失基础算法对标签类别的不平衡比我们提出的基于成对和重新加权损失的算法更敏感,这可能暗示其性能更差。此外,各种数据集上的实证结果支持我们的理论发现。为了建立这一理论,从技术上讲,我们提出了一种新的(且更通用的)McDiarmid类型的集中不等式。
论文介绍
论文题目:Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning
作者:路橙,陈华玉,陈建飞,苏航,李崇轩,朱军
论文概述:引导采样是在实际任务中应用扩散模型的重要方法,它在采样过程中嵌入了人为定义的引导。本文考虑了一个通用设置,其中引导是由一个(非标准化的)能量函数定义的。这个设置的主要挑战是扩散采样过程中的中间引导,它是由采样分布和能量函数共同定义的,是未知的,且难以估计。为了应对这个挑战,我们提出了中间引导的精确公式,以及一个名为对比能量预测(CEP)的新颖训练目标,用来学习精确的引导。在无限模型容量和数据样本下,我们的方法保证收敛到精确的引导,而以前的方法不能。我们通过将其应用于离线强化学习(RL)来展示我们方法的有效性。在D4RL基准测试上的大量实验表明,我们的方法超过了现有的最先进的算法。我们还提供了一些将CEP应用于图像合成的例子,以展示CEP在高维数据上的可扩展性。
论文介绍
论文题目:One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
作者:鲍凡,聂燊,薛凯文,李崇轩,蒲石,王耀乐,岳岗,曹越,苏航,朱军
论文概述:本文提出了一个统一的扩散框架(称为UniDiffuser),用于在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键洞察是:学习边际、条件和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中不同模态的扰动水平(即时间步)可以不同。受到统一视角的启发,UniDiffuser通过对原始扩散模型进行最小修改来同时学习所有分布----扰动所有模态的数据而不是单一模态,输入不同模态的各个时间步,预测所有模态的噪声而不是单一模态。UniDiffuser的参数化采用针对扩散模型的Transformer处理不同模态的输入类型。在大规模成对的图像-文本数据上实现的UniDiffuser通过设置适当的时间步,可以在没有额外开销的情况下执行图像、文本、文本到图像、图像到文本和图像-文本对生成。特别是,UniDiffuser能够在所有任务中生成在感知上真实的样本,其定量结果(例如,FID和CLIP得分)不仅优于现有的通用模型,而且与定制模型(例如,Stable Diffusion和DALL-E 2)在代表性任务(例如,文本到图像生成)中具有可比性。
代码链接:https://github.com/thu-ml/unidiffuser
检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。
下载Firefox