11月19日,中国计算机学会(CCF)推荐的A类国际学术会议 AAAI 论文接收结果公布。中国人民大学高瓴人工智能学院师生共有12篇论文被录用。 AAAI (AAAI Conference on Artificial Intelligence) 由国际先进人工智能协会主办,是人工智能领域的顶级国际学术会议之一。AAAI 2023共收到 8777 篇投稿论文,最终有 1721 篇论文被录取,录用率为19.6%。
论文介绍
论文题目:Machine Translation with Speech-Aware Length Control for Video Dubbing
作者:吴宜函,郭俊良,谭旭,张晨,李博涵,宋睿华,何磊,赵晟, Arul Menezes, 边江
通讯作者:宋睿华
论文概述:视频译制的目的是将视频中的语音从原始语言翻译至目标语言,一般通过级联多个系统(包括语音识别、机器翻译、语音合成)来实现。为了保证翻译后的语音与原始视频同步,翻译后语音的时长要尽可能接近原始语音,这就需要翻译过程中严格的语音长度控制。以往的工作通常控制机器翻译模型生成的词或字的数量与原句尽量相似,而不直接考虑语音的等时性。本文提出了一种针对视频配音任务的机器翻译系统,该系统直接考虑翻译过程中每个词的语音时长并显示控制,以匹配原始语音与翻译后语音的总时长。我们在四个语言方向(德语→英语、西班牙语→英语、汉语→英语,英语→汉语)上设计实验,结果表明,该方法对生成的语音具有较好的长度控制能力,优于基线方法。此外,由于视频译制数据集的不足,我们从电影中收集真实场景下的视频译制数据作为测试集,以提供对视频配音任务的综合评价。更多样例请参考https://speechresearch.github.io/videodubbing/
论文介绍
论文题目:Learning from the Wisdom of Crowds: Exploiting Similar Sessions for Session Search
作者:叶宇航,李中华,窦志成,朱余韬,张长旺,吴上权,曹朝
论文概述:搜索引擎是人们获取信息的重要方式。随着技术的不断发展,人们使用搜索引擎的方式逐渐从单个搜索变成了连续搜索,后者通常被称为会话搜索(session search)。不同于单个搜索,会话搜索可以利用用户的会话历史来解决复杂的查询问题。现有的大多数会话搜索方法将重点放在如何建模当前搜索历史(上下文信息)上,而忽视了其他会话中的相关信息。事实上,许多新的查询都可以找到与其具有相似意图的历史会话,我们认为这些历史会话可以帮助对当前查询意图的判断。为此,我们提出了一个相似会话增强的排序模型。具体来说,我们分别利用查询级别和会话级别的相似性,从历史会话中选择一些候选,然后借助于不同的神经网络结构对其建模。最终,我们同时利用这些候选会话的信息和当前查询的上下文信息来对候选文档进行排序。实验结果表明,我们的方法在两个常用的会话搜索数据集上显著优于已有的方法。
论文介绍
论文题目:PEN: Prediction-Explanation Network to Forecast Stock Price Movement with Better Explainability
作者:李书琪,廖炜恒,陈雨涵,严睿
通讯作者:严睿
论文概述:由于审计或监管原因,股票价格变动走势预测的可解释性越来越受到银行、对冲基金和资产管理公司的关注。财经新闻和社交媒体帖子等文本数据可能与股价波动有内在联系。为此,我们提出了一种新的预测解释网络(PEN)框架,该框架对齐文本流和价格流进行联合建模。PEN模型的关键组成部分是一个共享表示学习模块(SRL),该模块通过利用表征其相关性的显著向量对文本数据和股价数据之间的交互进行建模来学习哪些文本可能与股价走势相关。通过这种方式,PEN模型能够通过识别和利用丰富的信息来预测股价走势,而另一方面,所选择的文本信息也可以解释股价走势。在真实世界数据集上的实验表明,就准确性而言,所提出的PEN模型优于最先进的基线;在可解释性方面,PEN模型被证明远远优于注意力机制,能够以极高的可信度挑出关键文本。
论文介绍
论文题目:Retrosynthesis Prediction with Local Template Retrieval
作者:解曙方,严睿, 郭俊良,夏应策,吴郦军 ,秦涛
通讯作者:严睿
论文概述:逆合成预测,即预测给定目标分子的反应物,是药物发现的一项重要任务。近年来,基于机器学习的再合成方法取得了可喜的成果。在这项工作中,我们提出了RetroKNN,一种基于局部反应模板检索方法,以进一步提高基于模板的逆合成算法的性能。我们首先建立了一个包含训练数据原子模板库和键模板的数据库,然后在推理过程中用k-近邻(KNN)搜索从这些模板中进行检索。检索到的模板与神经网络预测相结合,作为最终输出。此外,我们还提出了一个轻量级的适配器,在结合神经网络和KNN预测时,根据隐藏的表示和检索的模板来调整权重。我们在两个广泛使用的基准数据集,即USPTO-50K和USPTO-MIT上进行了实验。对于top-1的准确性,我们在USPTO-50K数据集上提高了7.1%,在USPTO-MIT数据集上提高了12.0%。这些结果充分证明了我们方法的有效性。
论文介绍
论文题目:ConvNTM: Conversational Neural Topic Model作者:孙宏达,涂权,李金鹏,严睿
通讯作者:严睿
论文概述:主题模型在分析和理解文本方面具有巨大潜力,其与深度学习技术相结合的研究被称为神经主题模型 (NTM)。然而,现有的 NTM 主要基于通用文档进行建模,而没有考虑不同的文本分析场景应具有不同的主题建模特征。在本文中,我们提出了一种专为对话场景设计的对话神经主题模型 (ConvNTM)。与一般的文档主题建模不同,一个对话会持续多个回合:每个短文本会话符合一个主题分布,并且这些主题分布在各个回合间相互依赖。此外,对话中还包括不同的角色信息,也会影响对话中的主题分布。我们将以上因素考虑在内,通过将多轮次与多角色的公式化来进行对话主题建模。我们还利用词共现关系设计了一个新的训练目标,以进一步提高主题质量。实验结果表明,ConvNTM 在对话主题建模和对话典型下游任务(如对话行为分类和对话回复生成)中均取得了最佳性能。
论文介绍
论文题目:Learning towards Selective Data Augmentation for Dialogue Generation
作者:陈秀颖,李明哲,张嘉益,夏晓强,魏晨,崔建伟,高欣,张响亮,严睿。
通讯作者:严睿,高欣
论文概述:由于获取训练神经对话模型的大量数据既复杂又昂贵,因此本文提出了数据增强以更有效地利用现有的训练样本。当前关于对话生成任务的数据增强技术大多是增强训练数据集中的所有案例,而不考虑不同案例之间的内在属性。我们认为并非所有情况都对增强任务有益,适合增强的数据应遵循以下两个属性:(1) 低质量(对话模型无法为该数据生成高质量的回复),(2) 代表性(该数据应该代表整个数据集的属性)。本文中,我们为回复生成任务提出一个选择性数据增强框架(SDA)。SDA 采用双重对抗网络选择质量最低且最具代表性的数据点进行增强。在两个公开可用的数据集(即DailyDialog 和OpenSubtitles)上进行的大量实验表明,我们的框架可以提高各种指标的回复生成性能。
论文介绍
论文题目:Privacy-preserved Evolutionary Graph Modeling via Gromov-Wasserstein Autoregression
作者:向悦,罗迪新,许洪腾
通讯作者:许洪腾
论文概述:现实生活中的图(如社交网络等)通常会随着时间的推移而变化,其在不同时刻的观测结果构成了图序列。对这样的动态图建模有广泛的应用场景,但解决这个问题通常需要不同时刻图之间的对应关系,这可能会泄露节点的隐私信息,例如节点随时间的行为模式。我们提出了一个 Gromov-Wasserstein 自回归 (GWAR) 模型来刻画动态图的生成机制,该模型不需要不同时刻图之间的对应信息,从而保护了图节点的隐私。该模型由两个自回归过程组成,分别预测节点数以及节点和边的概率。该模型将观察到的图作为其输入,并通过解决图的对齐和合并任务来预测未来的图。这个任务可归结于Fused Gromov-Wasserstein (FGW) 重心问题,在该问题中,我们基于新的Inductive Fused Gromov-Wasserstein (IFGW) 距离来近似图的对齐。IFGW距离利用神经网络参数化最优传输矩阵,可以在避免迭代优化的情况下近似估计FGW重心,进而有效地预测未来的图。实验表明,我们的 GWAR 在隐私保护场景中对动态图建模取得了有竞争力的结果。
论文介绍
论文题目:Hierarchical Contrastive Learning for Temporal Point Processes
作者:王庆梅,程敏杰,袁深,许洪腾
通讯作者:许洪腾
论文概述:由事件组成的序列数据在现实场景中无处不在,时序点过程(TPP)是处理序列数据的有效方法。TPP的学习一般是基于最大似然估计(MLE)开展的,然而由于观测到的序列数据通常是不完整和稀疏的,因此基于MLE的TPP往往存在过拟合问题,导致模型泛化能力较低。本文提出了一种层次化对比学习方法(HCL)来缓解过拟合问题。HCL考虑了事件级和序列级的噪声对比估计问题,给定一个序列,事件级的噪声对比估计可以在惩罚未观察到事件的条件概率的同时,使已观察到事件的概率最大化;而序列级的噪声对比估计能够最大化正、负序列之间的可能性差异。此外,在序列级的噪声对比估计中,本文没有使用耗时的Ogata方法,而是设计一种基于模型的采样方法来生成正负序列,将计算复杂度从O(N^2)降低到O(N)。实验结果表明,本文提出的HCL为TPP提供了一种有效的学习范式。
论文介绍
论文题目:Self-supervised Action Representation Learning from Partial Spatio-Temporal Skeleton Sequences
作者:周彧杰,段浩东,饶安逸,苏冰,王佳琦
通讯作者:苏冰
论文概述:人体骨架动作识别领域,自监督学习被证明能够很好地表征动作语义。传统方法主要通过全局增强来产生同一样本不同视角的数据,然后利用对比学习的范式来进行动作表征学习。这些方法仅从全局的角度来学习区分不同的骨架动作,并没有探索序列中丰富的动作线索,同时缺乏对骨架节点之间以及时序帧之间局部关系的利用,从而影响了下游任务的泛化效果和特征鲁棒性。为此,我们提出了一个基于骨架序列数据的局部时空学习框架(PSTL),通过引入两种时空掩码策略来捕捉节点和帧之间的局部相关性。PSTL无需显示地构造负样本,模型首先维持一个锚输入流保持原有动作语义特征。其次,在空间输入流引入基于度中心性的节点掩码模块,为度数越高的骨架节点赋予更高的掩码概率。在时序输入流引入基于动作变化幅度的时序帧掩码模块,通过节点变化速率捕捉到时序关键帧进行对应的时序掩码。最后,利用互相关矩阵分别计算锚输入流的特征和另外两掩码流特征之间的相关关系,从而迫使编码器能够通过局部时空信息来表达整体的动作语义。实验表明,我们的方法在三个大规模骨架数据集的多种下游任务上均取得了显著提升。
论文介绍
论文题目:Understanding the Generalization Performance of Spectral Clustering Algorithms
作者:李少杰,欧阳晟,刘勇
通讯作者:刘勇
论文介绍:谱聚类的理论分析主要侧重于一致性,而泛化性能的研究较少。在本文中,我们研究了流行的谱聚类算法的超额风险界限(excess risk bound):RatioCut 和 NCut。我们的分析遵循谱聚类算法的两个实际步骤:连续解和离散解。首先,我们给出了经验连续最优解和总体连续最优解之间的超额风险的收敛速度。其次,我们给出了影响经验离散最优解和总体离散最优解之间超额风险的基本度量。在经验层面,可以设计算法来减小这个度量。基于我们的理论分析,我们提出了两种新的算法,它们不仅可以惩罚这个度量,还可以对样本外的数据进行聚类,而无需再次对整体样本进行特征分解。在玩具和真实数据集上的数值实验证实了我们提出的算法的有效性。
论文介绍
论文题目:Optimal Pricing Schemes for Identical Items with Time-Sensitive Buyers
作者:刘正阳,单良,王子贺
通讯作者:王子贺
论文概述:人们在网上的消费购物中通常会遇到一个问题,那就是直接选择购买商品,还是选择需要花费消费者时间以换取更便宜的商品价格的行为,比如在平台上进行价格比对、领取红包、凑满减、等待商品折扣等。本文研究了消费者在购买时是否花费时间换取额外折扣的两难问题。在本文中考虑的问题是为具有异质时间敏感的消费者群体购买相同物品寻找最优方案,消费者群体的时间拥有成本。本文研究了在贝叶斯设置下的最优定价方案的情况,其中类型是从物品的估值和买方的单位时间成本的联合分布中抽取的。对于一般情况,本文提出了一个近似定价方案。
论文介绍
论文题目:Energy-Motivated Equivariant Pretraining for 3D Molecular Graphs
作者:矫瑞,韩家琦,黄文炳,荣钰,刘洋
通讯作者:黄文炳,刘洋
论文概述:在不提供标签的情况下对分子表示模型进行预训练对下游众多任务至关重要。传统方法(如GROVER)大多只关注2D分子图的预训练,难以有效应用到3D任务,包括分子量子力学性质预测等。本文提出了一种能量启发的3D分子预训练方法,利用E(3)-等变GNN作为主干网络,并设计E(3)-不变的无监督训练损失。主要的创新在于,构建黎曼-高斯分布对分子坐标进行扰动,能在旋转、平移、翻转等变换下保持分布不变,比传统高斯扰动更能刻画分子的几何特性;利用主干网络输出原子受到的伪力,尽可能地拟合黎曼高斯扰动的概率梯度。最后,在GEOM-QM9进行预训练,在QM9和MD17等分子动力学数据集上验证方法的有效性。
检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。
下载Firefox