高瓴人工智能学院师生论文被国际学术会议AAAI录用

新闻公告

高瓴人工智能学院师生论文被国际学术会议AAAI录用

日期：2024-12-17访问量：

12月10日，国际人工智能顶级会议AAAI 2025论文接收结果公布，中国人民大学高瓴人工智能学院师生有21篇论文被录用。AAAI是由国际人工智能促进协会主办的年会，是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一，也是中国计算机学会（CCF）推荐的A类国际学术会议。AAAI 2025将于2025年2月25日- 3月4日在美国宾夕法尼亚州费城举办。

论文介绍

论文题目：Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers

作者：汤昕宇*，王晓磊*，赵鑫，路思远，李雅亮，文继荣

通讯作者：赵鑫

论文概述：自动提示优化是改善大语言模型性能的重要方法。最近的研究证明了使用大语言模型作为提示优化器的潜力，它通过迭代改进可以生成增强的任务提示。在本文中，我们通过将其与基于梯度的模型优化器进行类比，提出了一种新的视角来研究基于大语言模型的提示优化器的设计。为了对比这两种方法，我们确定了模型参数学习中的两个关键因素：更新方向和更新方法。针对这两个方面，我们借鉴了梯度优化的理论框架和学习方法，为基于大语言模型的提示优化器设计了改进的策略。通过对一组丰富的改进策略进行系统分析，我们进一步开发了一种功能强大的梯度启发的大语言模型提示优化器，称为GPO。在每一步中，它首先从优化轨迹中检索相关历史提示作为更新方向。然后，它利用基于生成的改进策略进行更新，同时通过基于余弦的衰减策略控制编辑距离。大量实验证明了GPO的有效性和效率。

论文介绍

论文题目：Leveraging Large Vision-Language Model as User Intent-aware Encoder for Composed Image Retrieval

作者：孙泽龙，荆栋，杨国兴，费楠益，卢志武

通讯作者：卢志武

论文概述：组合图像查询（CIR）旨在根据参考图片和修改文本召回与参考图像相似符合修改要求的目标图像。正确完成CIR任务需要（1）对参考图像的语义有完整的感知。（2）正确理解并执行用户的修改意图。在本工作，我们提出了CIR-LVLM，旨在微调视觉大语言模型（LVLM）为用户意图感知编码器来解决这两个挑战。CIR-LVLM提供了一个统一的多模态处理框架来捕获更加完整的参考图片信息，并利用了LVLM强大的推理能力来感知并完成复杂的用户修改意图。同时，为了加强CIR-LVLM在CIR任务上的推理能力，我们设计了任务级硬提示和实例级软提示来提供两个等级的指导。此外，相比较于应用LVLM于生成式检索方法，CIR-LVLM的single-pass编码过程极大的提高了检索效率。我们首次证明了在需要推理的多模态检索任务上（如CIR），LVLMs拥有匹配甚至超越VLMs（如CLIP）的潜力，这为多模态检索领域提供了新的探索方向。

论文介绍

论文题目：One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models

作者：朱余韬，黄钊恒，窦志成，文继荣

通讯作者：窦志成

论文概述：检索增强生成（RAG）是改进大型语言模型以生成更准确、更符合事实和更及时内容的一种有前景的方式。现有方法要么优化提示以指导大模型利用检索到的信息，要么直接对大模型进行微调以适应RAG场景。尽管微调可以提高性能，但它通常会通过修改参数来损害大模型的一般生成能力。这种限制在实际应用中带来挑战，特别是当大模型已经部署时，参数调整可能会影响其原有功能。为了解决这一问题，我们提出了一种学习可扩展和可插拔虚拟词元的新方法。通过保持大模型的原始参数，并仅对这些可插拔词元的词向量进行微调，我们的方法不仅提高了大模型的性能，而且保留了它们的一般生成能力。在面对RAG任务时，只需要在输入中加入这些虚拟词元就可以有效提升大模型的性能；而在非RAG任务中，则可以使用原大模型以保持其一般能力。此外，我们设计了几种训练策略来提高我们方法的可扩展性、灵活性和泛化性。在12个问答任务中进行的全面实验证明了我们方法的优越性。

项目地址：

https://github.com/DaoD/SPRING/

论文介绍

论文题目：Descriptive and Discriminative Document Identifiers for Generative Retrieval

作者：程杰翰，窦志成，朱余韬，李晓熙

通讯作者：窦志成

论文概述：生成式文档检索是一种新颖的检索框架，它将文档表示为标识符（DocID），并通过生成DocID检索文档。与传统的检索方法相比，它具有端到端优化的优势，并吸引了大量的研究兴趣。然而，为文档表示开发高效、精确的DocID仍是该领域的一个相关问题。现有的设计方法往往只考虑DocID与相应文档的相关性，而忽略了DocID区分相应文档与相似文档的能力，而这种能力对于检索任务至关重要。在本文中，我们为生成式检索设计了可学习的兼顾描述性和区分性的文档标识符D2-DocID。这种DocID既能够在语义上与相应的文档相似（描述性），又能够区分语料库中的相似文档（区分性），从而提高检索性能。我们使用对比学习辅助生成式检索任务，使模型能够理解文档，然后完成生成式检索。然后，我们设计了一种DocID选择方法，根据检索模型对文档的理解来选择DocID。我们在MS MARCO和NQ320K数据集上证明了该方法的有效性。

论文介绍

论文题目：Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

作者：董冠霆，宋晓帅，朱余韬，乔润祺，窦志成，文继荣

通讯作者：窦志成

论文概述：遵循自然指令对检索增强生成（RAG）系统的应用至关重要。尽管大语言模型取得了一些进展，但对RAG领域评估和改善指令遵循对齐的研究仍很有限。本文首先提出了一个自动化、可扩展且可校验的数据合成框架VIF-RAG，用于 RAG 系统中的指令遵循对齐。我们通过手动创建了极少量的原子指令，并设计组合规则以合成和验证复杂指令。然后我们使用强监督模型进行指令重写，并生成代码通过 Python 编译器自动验证指令质量。最终，这些指令与广泛的RAG和通用数据样本结合，生成超过100K条高质量的VIF-RAG-QA指令微调数据集。为了进一步弥合 RAG 系统中指令遵循评估的空白，我们引入了 FollowRAG基准，包含约3K个测试样本，覆盖22类通用指令约束和四个知识密集型QA数据集。FollowRAG的设计使其能够与不同的RAG基准无缝集成。通过FollowRAG和八个广泛使用的指令遵循和基础能力数据集，我们验证了VIF-RAG 在多种通用指令约束下显著提升 LLM 的性能，并有效利用其在 RAG 场景中的能力。进一步分析为实现RAG系统中的指令遵循对齐提供了有价值的见解。

论文介绍

论文题目：AdaO2B: Adaptive Online to Batch Conversion for Out-of-Distribution Generalization

作者：张骁，戴孙浩，徐君，刘勇，董振华

通讯作者：徐君

论文概述：“在线—批处理转化”是在线优化算法中的基本方法：其利用在线学习算法生成一系列模型，通过模型平均构建单个批量学习器，旨在i.i.d.数据环境中获得好的泛化性保证。然而在实际流数据环境中，数据流分布可能随时间不断变化，数据分布并非i.i.d.。如何在非i.i.d.数据环境中通过在线—批处理转化获得分布外（OOD）泛化能力有待进一步研究。为了解决这一问题，本文证明了在线学习遗憾界与OOD泛化误差界之间的关联，并依此设计了自适应在线—批处理转化方法AdaO2B。AdaO2B通过反馈插补方法离线构造环境模型，通过上下文感知的加权函数，自适应确定模型权重并组合合适的模型，形成可OOD泛化的批量学习器。实验结果表明，AdaO2B在合成数据和实际数据上均可获得OOD泛化能力。

论文介绍

论文题目：Trigger3: Refining Query Correction via Adaptive Model Selector

作者：张珂镨，孙忠祥，张骁，臧晓雪，郑凯，宋洋，徐君

通讯作者：张骁

论文概述：大小模型协同是降低大模型部署中计算开销的有效途径，本文以搜索场景中的查询纠错为例，围绕简单拼写错误、背景知识不足等多方面因素，提出了面向查询纠错的自适应大小模型选择方法。具体地，本文提出了Trigger3，一个包含纠错触发器、大语言模型触发器和回退触发器的多级大小模型选择方法。Trigger3可根据查询特性、小模型纠错结果及大语言模型纠错结果，自适应地选择最合适的查询纠错方式，在保证查询纠错性能的同时减少调用大语言模型的次数。在公开数据和商业数据上的实验结果表明，Trigger3可通过大小模型协同的方式，在保持高推断效率的同时显著提升查询纠错的准确性。

论文介绍

论文题目：Enhancing Audiovisual Speech Recognition by Bifocal Preference Optimization

作者：吴宜函，卢弈辰，彭逸凡，王希华, 宋睿华, Shinji Watanabe

通讯作者：宋睿华

论文概述：本工作提出了一种基于Direct preference optimization的方法来提高真实世界视频中的语音识别准确性。该研究特别针对嘈杂声学环境、自发性对话以及视觉信息的不确定使用等挑战，通过偏好优化策略显著提升了AV-ASR模型的性能。本工作首先通过多模态场景语音识别任务中常见的错误，构建了偏好数据。接着，我们提出了一种名为BPO-AVASR的双焦点偏好优化方法，通过利用输入侧和预测侧的偏好来改进AV-ASR模型。在多个领域的广泛实验中，BPO-AVASR在真实世界视频语音识别方面超越了以往的最先进模型，显示出显著的性能提升。

论文介绍

论文题目：EyEar: Learning Audio Synchronized Human Gaze Trajectory based on Physics-informed Dynamics

作者：刘小川*，程信*，孙宇冲，吴晓雪，宋睿华，孙浩，张登浩

通讯作者：宋睿华，孙浩，张登浩

论文概述：模仿人类在视觉场景中眼睛运动的方式是视觉理解和心理学领域的重要研究问题，这为构建栩栩如生的虚拟角色等关键应用提供了可能。之前的研究主要致力于在人类自由观看图像、搜索特定目标，或在图像中寻找线索以回答问题时，预测其注视轨迹。尽管这些任务聚焦于以视觉为中心的场景，但在人类日常生活中，视线移动往往也与音频息息相关。为了填补这一空白，我们引入了一个新任务，即在视觉场景中融入同步的音频输入，并在这种场景下预测人类的注视轨迹。我们还提供了一个该场景下的数据集、包含来自8位受试者的2万余条注视点。为了有效整合音频信息并模拟人类视线的动态运动过程，我们提出了一个基于物理动力系统的全新学习框架，称为EyEar（“Eye moving while Ear listening”，即“耳听眼动”）。该框架在预测注视轨迹时考虑了三个关键因素：眼睛的固有运动趋势、视觉显著性吸引力，以及音频的语义吸引力。此外，我们还提出了一种基于概率密度的评分方法，以克服注视轨迹的高度个体差异性，从而提高优化过程的稳定性和评估的可靠性。实验结果表明，得益于所提出的模型组件，我们的框架EyEar在所有评估指标上均优于基线模型。

论文介绍

论文题目：Merging Mechanisms for Ads and Organic Items in E-commerce Platforms

作者：安楠，李维安，祁琦, 张梁

通讯作者：祁琦

论文概述：在当代电子商务平台中，搜索结果页面展示了两类商品：广告商品和自然商品。广告商品通过广告拍卖系统确定，而自然商品由推荐系统选择。这两个系统具有不同的优化目标，因此如何有效地融合这两部分成为一项挑战。近年来，针对电子商务平台的融合机制已有一定研究，但尚无机制能够同时实现所有理想属性，包括：激励相容性、个体理性、适应多位置、整合不可分割的候选项，以及避免广告和自然商品的重复曝光。本文旨在设计一种能够满足所有这些属性的融合机制。我们首先提供了最优融合机制的必要条件，接着介绍了两种简单而有效的机制，分别为G-Fix和G-Change机制。最后，我们从理论上证明了这两种机制在最简单和一般设置中，相较于最优机制都具有保证的竞争比。

论文介绍

论文题目：GenAuction: A Generative Auction for Online Advertising

作者：马毓超，钱若函，王炳哲，祁琦，刘文强，唐潜，沈钊，钟伟，沈波，苏奕昕，邹斌，易文，国智，李双龙，刘林

通讯作者：祁琦

论文概述：传统的广告拍卖主要依赖基于规则的机制。这些机制在广告层面挑选出获胜广告，随后将它们组合成页面（PV）。然而，在多轮拍卖这种机制只能得到次优的分配结果。这源于设计排序规则以及挑选获胜广告集合需要巨大的计算开销，而且在广告层面进行挑选时，无法充分获取页面内的上下文信息。

在本文中，我们提出了一种基于关键绩效指标（KPI）的拍卖机制，该机制在页面维度挑选获胜页面。我们将广告分配建模为一个约束优化问题。这使得我们能够兼顾短期和长期KPI，同时充分利用页面内全局上下文信息。

基于这一框架，我们设计了 “生成式拍卖”（GenAuction），这是一种利用基于 Transformer的generator - evaluator架构的生成式拍卖机制。Generator能快速生成多个候选页面，而evaluator则会根据上下文信息挑选出最优页面，使其符合多轮拍卖的目标和KPI。

我们利用真实工业数据开展了大量实验，以验证生成式拍卖能够高效地处理多目标分配任务，并且进行了线上A/B测试，来展示了它在现实世界应用中的有效性和潜力。

论文介绍

论文题目：On Designing the Optimal Integrated Ad Auction in E-commerce Platforms

作者：马毓超，李维安，王宇涵，郭子湉，窦越嘉，祁琦，余昌远

通讯作者：祁琦

论文概述：当前，电子商务平台会将广告商品和原生内容整合到一个混合列表中呈现给用户。平台一方面希望从广告商那里实现利润最大化，而原生内容则能提升用户体验。为确保长期发展，平台致力于设计出既能优化收益又能提升用户满意度的机制。

传统方法是先分别对广告和原生内容进行排序，然后再将它们整合到一起。即便每个部分在局部是最优的，但整合后的结果可能并非全局最优。近期有研究提出逐个将候选广告插入到原生列表中。然而，这种逐位次插入广告来构建最终混合结果的方法仍然不够理想。

在本文中，我们提出了联合集成遗憾网络（JINTER Net）。与传统方法分别对广告和原生内容预排序的策略不同，JINTER Net 直接从候选广告和原生内容的集合中进行选择，以生成一个最优列表。该方法旨在在满足近似占优策略激励相容和个体理性约束的条件下，同时最大化平台收益和提升用户体验。

我们利用模拟数据和真实数据集验证了JINTER Net 的有效性，实验结果表明，它在多个指标上均显著优于基线模型。

论文介绍

论文题目：A Plug-and-Play Bregman ADMM Module for Inferring Event Branches in Temporal Point Processes

作者：王庆梅，吴雨欣，龙雨洁，黄静，冉丰源，苏冰，许洪腾

通讯作者：许洪腾

论文概述：论文提出了一种基于 Bregman 交替方向乘子法（BADMM）的即插即用模块，旨在解决时序点过程（TPPs）中事件分支结构的推断问题。事件分支是隐藏且不可观测的变量，其结构化推断对于准确建模事件序列至关重要。论文设计的 BADMM模块在最大似然估计（MLE）框架下，通过求解子空间聚类问题或稀疏组LASSO问题，对事件间的转移矩阵施加稀疏和低秩结构约束，从而有效地处理事件分支过于稠密的问题。这一模块能够无缝集成到经典TPP模型（如Hawkes过程）以及神经TPP的自注意力机制中，生成结构化的事件转移矩阵。这不仅揭示了隐藏的事件分支过程，还提供了对事件生成机制和信息传播规律的深入洞察，例如识别信息扩散网络中的源节点以及控制特定信息的传播。实验结果验证了BADMM模块在多种合成数据和真实数据集上的有效性。将BADMM模块嵌入现有TPP模型，不仅显著提升了模型的预测性能，还有效推断出合理的事件分支结构，识别关键事件及其触发关系，极大地增强了模型的可解释性和实用价值。

论文介绍

论文题目：An Optimal Transport-based Latent Mixer for Robust Multi-modal Learning

作者：巩凤娇，岳昂枭，许洪腾

通讯作者：许洪腾

论文概述：多模态学习旨在学习基于不同模态数据的预测模型。然而，由于数据安全和隐私保护的要求，现实世界中的多模态数据通常分散在不同的终端中，无法在终端之间共享，这限制了现有多模态学习方法的应用。为了在这种情况下实现稳健的多模态学习，我们提出了一种新颖的基于最优传输混合器（OTM）的多模态学习方法，该方法在隐空间中进行多模态数据的对齐和增强，适用于未对齐的、分布式的多模态数据。具体而言，我们为每个终端训练一个Wasserstein自编码器（WAE），该自编码器将单一模态的样本编码到隐空间，再由所提出的OTM计算随机的Fused Gromov-Wasserstein重心（FGWB），用以混合不同模态的隐空间编码，最后每个终端基于FGWB来重建单模态的样本。该方法既不要求多模态数据良好对齐，也不假设数据共享相同的隐空间分布，每个终端都基于多模态数据进行模型学习，然后基于其本地模型进行推断。在多模态数据上的聚类和分类实验表明，使用 OTM 方法学习的模型优于相应的基线模型。

论文介绍

论文题目：WatE: A Wasserstein t-distributed Embedding Method for Information-enriched Graph Visualization

作者：程敏杰，罗迪新，许洪腾

通讯作者：许洪腾

论文概述：作为图分析的研究问题之一，图可视化是将一组图嵌入到低维空间（比如二维空间）中，以便分析其分布情况和聚类结构。传统的图可视化任务通常把图表示为一个点，这种表示方法会丢失图结构的丰富信息。针对此问题，我们提出了一种新的Wasserstein t-distributed embedding方法（WatE），得到一种信息更丰富的图可视化表示形式。我们的方法通过学习图神经网络，将图用其节点嵌入分布的均值和协方差来表示，把每一个图可视化为一个椭圆（由均值和协方差确定），而不是一个单一的点。不同椭圆的位置如传统可视化方法一样能够揭示不同图之间的关系，同时椭圆的大小和形状又保留了相应图的节点级结构信息。我们的方法在图可视化和聚类任务中取得了很好的表现。

论文介绍

论文题目：Stability and Generalization of Zeroth-Order Decentralized Stochastic Gradient Descent with Changing Topology

作者：胡啸林，龚子瑄，徐庚泽，刘伟，栾剑，王斌，刘勇

通讯作者：刘勇

论文概述：零阶（ZO）优化作为一种无梯度方法，在一阶梯度不可用时已成为一项强有力的工具。目前，针对零阶去中心化随机梯度下降算法（ZO-DSGD）的优化收敛率分析已有诸多研究。然而，这些方法的泛化性能尚未得到充分研究。在本文中，我们首次对具有动态拓扑结构的ZO-DSGD进行了泛化性能分析，研究场景中客户端在本地数据上运行零阶SGD算法，并通过随时间变化的拓扑结构进行通信。我们系统地分析了凸、强凸和非凸情形下的泛化误差。在凸与强凸情形下，零阶优化方法的泛化结果恢复了一阶SGD的分析结论。此外，非凸情形下得出的泛化界与去中心化随机梯度下降（DSGD）的结果一致。为揭示通信拓扑对泛化性能的影响，我们分析了不同客户端本地模型的局部泛化界。研究结果反映了客户端数量、本地样本数量以及拓扑结构对泛化误差的影响。本文首次在零阶设定下恢复了一阶SGD的泛化误差，并且为去中心化零阶方法的理论发展提供了重要参考。

论文介绍

论文题目：HeMeNet: Heterogeneous Multichannel Equivariant Network for Protein Multitask Learning

作者：韩荣，黄文炳，罗崚骁，韩昕妍，沈佳茗，张志强, 周俊，陈挺

通讯作者：黄文炳，陈挺

论文概述：理解和利用蛋白质的三维结构是多种生物学研究和药物发现任务的核心。在结构基础上进行蛋白质功能预测任务中，深度学习已经取得了很大进展。然而，现有方法通常针对每个任务进行单独训练。由于这些任务的数据集规模较小，这种单任务策略限制了模型的性能和泛化能力。由于一些带有标注的结构蛋白质数据集在生物学上具有相关性，通过整合多源数据集以实现大规模多任务学习是一种克服这一问题的方法。在本文中，我们提出了一种神经网络模型，能够基于三维蛋白质结构的输入联合处理多个任务。首先，我们构建了一个标准的基于结构的多任务基准数据集，称为 Protein-MT，该数据集包含6个生物学相关任务，包括亲和力预测和性质预测，并整合了来自4个公共数据集的数据。同时，我们开发了一种新型的图神经网络用于多任务学习，称为异质多通道等变网络（Heterogeneous Multichannel Equivariant Network，简称 HeMeNet），该网络具有 E(3) 等变性，能够捕获不同原子之间的异质关系。此外，HeMeNet 能够通过任务感知的聚合机制实现任务特定的学习。在我们构建的基准数据集上进行的广泛评估验证了多任务学习的有效性，并且我们的模型在大部分任务上优于最先进的模型。

论文介绍

论文题目：Controlling Large Language Models Through Concept Activation Vectors

作者：张函玉，王希廷，李承奥，敖翔，何清

通讯作者：王希廷，何清

论文概述：大模型的可控文本生成通常需要耗费大量计算资源或依赖多次试验，成本较高。本文提出了一种轻量化的大模型控制框架GCAV，该方法首先收集少量数据为目标控制概念训练概念激活向量，在推理阶段，通过将概念激活向量注入大模型的激活层，调整激活表示，实现对模型生成的控制。我们的控制生成框架无需大量计算资源，可灵活针对单个样本调整控制层级和控制幅度。在不同任务上的实验结果表明，我们的方法可以达到更好的控制效果，实现个性化主题和风格的生成。

论文介绍

论文题目：FAP-CD: Fairness-Driven Age-Friendly Community Planning via Conditional Diffusion Generation

作者：李锦林，李欣桐，周骁

通讯作者：周骁

论文概述：随着全球人口迅速老龄化，将老年化需求纳入城市规划对老年友好城市建设和可持续发展的环境至关重要。然而，目前城市规划未能充分实现老年友好型布局，导致老年服务分布不均且不足，这突显了老年友好型城市更新策略的紧迫性。为应对这一挑战，我们提出了一种基于条件扩散生成的公平驱动老龄友好型社区规划框架（FAP-CD），该框架利用条件图去噪扩散概率模型学习老年化设施及其在细粒度区域空间关系的条件联合概率分布。在训练阶段，我们引入了一个需求公平预训练模块，该模块利用注意力机制和极大-极小优化，将社区需求特征与城市特征整合，确保服务在不同地区之间的分布均衡。此外，我们使用离散图结构表示区域道路网络中的潜在15分钟步行可达性，作为加速模型采样的指导条件。实验表明，所提出的框架相较于各种竞争性基准模型，在平衡老年友好需求与区域公平性方面表现卓越。

论文介绍

论文题目：MotifGPL: Motif-Enhanced Graph Prototype Learning for Deciphering Urban Social Segregation

作者：何腾飞，周骁

通讯作者：周骁

论文概述：城市中的社会隔离问题正变得愈加多样且严重，包括种族隔离、居住隔离和收入隔离等。随着城市空间和社会关系的日益复杂，大都市地区的居民正面临着不同程度的社会隔离问题。如果这一问题得不到及时解决，很可能导致城市犯罪率上升、社会紧张加剧等一系列严重的社会问题。准确量化并分析城市空间的结构以及居民互动模式，已成为解决这些隔离问题的关键方法。过往研究大多关注城市隔离的浅层统计指标，缺乏从城市结构和流动性角度进行的全面分析，无法充分揭示当前社会隔离现象的复杂性。为解决这一问题，我们提出了一个名为“Motif增强的图原型学习”（MotifGPL）的框架。该框架包括三个核心模块：基于原型的图结构提取模块、motif分布发现模块和城市图结构重构模块。具体而言，我们通过图原型学习，结合POI、街景图像和流动指数等重要的城市属性数据，从城市空间图和OD图中提取关键原型。同时为提高模型的可解释性，我们在motif分布发现模块中，将每个原型与motif模式进行匹配，这些模式代表了反映局部规律的简单图结构。最后，我们利用motif分布结果来指导城市空间图的重构。该模型深入分析了城市空间结构和居民流动模式，帮助我们识别和解析影响城市社会隔离的关键模式，并为构建低隔离程度的城市结构提供有力指导。大量实验结果表明，该框架能够有效揭示影响城市社会隔离的关键模式，并为缓解这一现象提供有力支持。

论文介绍

论文题目：RATT: A Thought Structure for Coherent and Correct LLM Reasoning

作者：张静涵，王希廷，任伟杰颖，姜璐，王东杰，刘鲲鹏

通讯作者：刘鲲鹏

论文概述：大语言模型（LLMs）从思维结构中获得了强大的推理和决策能力。然而，现有的方法，例如“思维树”（Tree of Thought）和“检索增强思维”（Retrieval Augmented Thoughts），在处理复杂任务时常常表现不佳。这主要是由于局部事实知识检索不足和全局策略选择不充分的限制。这些问题使得这些方法难以在事实准确性和全面的逻辑优化之间有效平衡。为了解决这些问题，我们提出了一种新的思维结构——检索增强思维树（Retrieval Augmented Thought Tree, RATT），该结构在思维过程的每一步同时考虑整体逻辑合理性和事实正确性。具体来说，在思维树的每个分支节点上，RATT通过规划和前瞻性思考来探索和评估多个潜在的推理步骤，并结合检索增强生成（RAG）的事实核查能力与大型语言模型的整体策略评估能力。通过这一事实知识与策略可行性相结合的方法，RATT能够调整并整合思维树的结构，在搜索空间内寻找最有前景的分支。这种思维结构显著提升了模型在逻辑推理中的连贯性和决策中的效率，从而拓展了大语言模型基于思维结构生成可靠推理和决策的能力上限。在不同类型任务上的广泛实验表明，RATT结构在事实正确性和逻辑连贯性方面显著优于现有方法。

新闻公告

学院新闻

高瓴人工智能学院师生论文被国际学术会议AAAI录用

友情链接

联系

关注我们