您所在的位置: 首页- 新闻公告- 学院新闻-

学院新闻

我院师生论文被国际学术会议EMNLP 2023录用
日期:2023-10-12访问量:

10月7日,中国计算机学会(CCF)推荐的国际学术会议EMNLP 2023论文接收结果公布。中国人民大学高瓴人工智能学院师生有20篇论文被录用。自然语言处理中的经验方法会议(Empirical Methods in Natural Language Processing,简称EMNLP ) 是自然语言处理和人工智能领域的领先会议。与计算语言学协会一起,它是自然语言处理研究的两个主要的高影响力会议之一。

2023.png

论文介绍

论文题目:Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

作者:王晓磊,汤昕宇,赵鑫,王静远,文继荣

通讯作者:赵鑫

论文概述:我们对利用ChatGPT进行对话式推荐进行了调研,揭示了现有评测方式的不足之处:该评测方式过于强调与人工标注数据的匹配,而忽视了对话式推荐系统(CRS)本身的交互特性。因此,我们提出了一种基于大语言模型(LLMs)的交互式评测方法——iEvaLM,利用LLM为基础的用户模拟器,模拟各种系统与用户的交互场景。通过在两个CRS数据集上的实验,我们证明了新型对话式推荐系统的评测方式能够很好地激发出LLMs的能力。

论文介绍

论文题目:StructGPT: A General Framework for Large Language Model to Reason over Structured Data

作者:蒋锦昊*,周昆*,董梓灿,叶珂铭,赵鑫,文继荣

通讯作者:赵鑫

论文概述:大语言模型(LLMs)在各类文本任务上取得令人惊艳的效果。但在许多实际应用中,还存在大量结构化数据以存储规范化知识,例如知识图谱(KG),表格(Table),和数据库(Database)。本文想要探讨的问题是:大语言模型的能力边界能否扩宽到结构化数据,通过利用和理解结构化知识完成用户需求?本文首次提出了一套统一通用的推理框架「StructGPT」以支持大语言模型在结构化数据上进行推理。并通过实验证明了其有效性和通用性。我们期待该方法为大语言模型落地各类实际应用提供灵感并促进大语言模型的进一步发展。

论文介绍

论文题目:HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

作者:李军毅,成晓雪,赵鑫,聂建云,文继荣

通讯作者:赵鑫

论文概述:大型语言模型(LLMs),例如 ChatGPT,很容易产生幻觉,即与上下文相冲突或无法通过事实知识验证的内容。为了探究大模型产生幻觉的内容类型和程度,我们建立了大语言模型的幻觉评估基准(HaluEval),包含自动生成和人类标注的幻觉样本集合,用于评估大语言模型识别幻觉的性能。为了自动生成幻觉样本,我们提出了一个基于 ChatGPT 的两步框架,即采样-过滤。此外,我们还招募了人类标注者对 ChatGPT 回应中的幻觉进行标注。实验结果表明,ChatGPT很可能在特定主题中通过编造无法验证的信息而产生幻觉内容(约占回复总数的19.5%)。此外,现有的大语言模型在识别文本中的幻觉方面也面临巨大挑战。而我们的实验也证明,可以通过提供外部知识或增加推理步骤可以提高幻觉识别率。

论文介绍

论文题目:Evaluation Object Hallucination in Large Vision-Language Models

作者:李依凡,都一凡,周昆,王锦鹏,赵鑫,文继荣

通讯作者:赵鑫

论文概述:通过集成LLM和进行视觉指令微调,多模态大模型(Large Vision-Language Models, LVLM)取得了令人鼓舞的进展。但我们发现LVLM普遍面临物体幻觉问题,即倾向于生成与目标图像不一致的物体。为了调查这一现象,我们首次系统研究了LVLM的物体幻觉问题。我们对几个代表性的LVLM进行了评估实验,并发现它们大多存在严重的物体幻觉问题。此外,我们进一步讨论了视觉指令对物体幻觉对影响,并发现经常出现在视觉指令中或与图像中的物体共同出现的物体更容易使LVLM出现幻觉。此外,我们还设计了一种基于轮询的物体探测方法,称为POPE,用于更好地评估物体幻觉。实验结果显示,POPE可以以更稳定和灵活的方式评估物体幻觉。

论文介绍

论文题目:Enhancing Generative Retrieval with Reinforcement Learning from Relevance Feedback

作者:周雨佳,窦志成,文继荣

通讯作者:窦志成

论文概述:最近端到端生成检索的出现标志着文档检索方法的重大转变,利用可微分搜索索引直接根据特定查询生成相关的文档标识符(docids)。然而,这种方法面临两个基本挑战:(i) 词级别的概率优化与更广泛的文档级别相关性估计之间的差异;(ii) 过分强调Top-1结果,而牺牲了整体排名质量。为了应对这些挑战,我们提出了一种带有来自相关性反馈的强化学习的生成检索模型,旨在将词级别的docid生成与文档级别相关性估计对齐。训练过程包含三个阶段:监督微调、相关奖励模型训练和来自相关反馈的强化学习排名。为了训练一个高质量的奖励模型,我们在三个逐步的场景下定义了“相关性”,它们共同提供了对文档相关性的全面评估。在两个基准数据集上进行的实验展示了我们提出的方法的有效性。

论文介绍

论文题目:Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval

作者:张配天,刘政,肖诗涛,窦志成,姚菁

通讯作者:窦志成

论文概述:倒排文件结构(IVF)是一种常见的用于加速密集检索的技术。它根据文档的向量表示将它们进行聚类;在搜索过程中,它会针对输入的查询探测附近的聚类,只评估其中的文档,从而避免了遍历所有文档导致的昂贵成本。然而,这种聚类通常是有损的,会导致在探测的聚类中错过相关文档,从而降低了检索质量。相比之下,词汇匹配,如重要术语的重叠,往往是识别相关文档的有效特征。在这项工作中,我们提出了混合倒排索引(HI2),其中向量聚类和重要术语共同协作从而加速稠密检索并减少精度损失。为了充分提升其效果和效率,我们设计了一个聚类选择器和一个术语选择器,用于构建紧凑的倒排列表并高效地搜索它们。此外,我们利用简单的无监督算法以及端到端的知识蒸馏来学习这两个模块,后者进一步提高了效果。基于对流行检索数据集的全面实验,我们验证了聚类和术语确实能够互相协作,使得HI2在各种设置下都能实现几乎无损的检索质量,并具有竞争力的效率。

论文介绍

论文题目:BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations

作者:裴启智,章未,祝金华,吴可寒,高开元,吴郦军,夏应策,严睿

通讯作者:严睿,吴郦军,夏应策

论文概述:近期在生物研究领域,研究者通过整合分子、蛋白质和自然语言以提高药物发现的效率。然而,目前的模型存在多种限制,比如产生无效的分子SMILES表达式、对上下文信息的利用不够充分,以及对结构化和非结构化知识的处理不够精细。为了解决这些问题,我们提出了BioT5。BioT5是一个全面的预训练框架,它通过关联化学知识和自然语言来实现跨模态知识整合。BioT5使用SELFIES来生成100%合法的分子表示,并且从非结构化生物文献中生物实体的上下文中提取知识。此外,BioT5显式地区分结构化和非结构化知识,从而更有效地利用这些信息。经过微调后,BioT5在众多下游任务上都展现出了卓越的性能,证明了它在捕获生物实体间的潜在关系和生物实体的属性方面都具有强大的能力。

论文介绍

论文题目:Exploring the Impact of Model Scaling on Parameter-efficient Tuning

作者:苏裕胜,詹棋闵,陈家立,秦禹嘉,林衍凯,胡声鼎,杨宗瀚,丁宁, 孙行智, 谢国彤,刘知远,孙茂松

通讯作者:刘知远

论文概述:参数高效微调方法可以通过仅训练最少的参数来有效地驱动预训练语言模型。不同的参数高效微调方法利用不同的手动设计可调模块对模型进行驱动。对于参数量较小的预训练模型,参数高效微调方法之间通常存在明显的性能差异。然而,随着模型规模的增加,性能差异变得微不足道。因此,我们猜想模型规模的增加减轻了设计差异对参数高效微调方法的影响。为了探究这个猜想,我们引入了一种更灵活的参数高效微调方法,称为APET方法。APET方法采用了由分布在任意位置任意数量的参数组成的可调模块。在 11个NLP任务上的实验结果表明,模型规模的增加(1)减轻了可调参数位置对性能的影响,(2)使调整方法能够通过优化更少的可调参数来实现与全参数微调相当的性能。有趣的是,我们还观察到对于不同的任务,APET方法均在使用相似数量的最小可调参数超过其随机猜测性能。我们从优化的角度共同讨论这一现象和上述两个发现,以了解潜在的机制。这些结论增强了我们对模型规模的增加对参数高效微调影响的理解,并有助于为不同规模的预训练模型设计更有效和高效的参数高效微调方法。

论文介绍

论文题目:A Thorough Examination on Zero-shot Dense Retrieval(Findings of EMNLP)

作者:任瑞阳,曲瑛琪,刘璟,赵鑫,吴奇飞,丁宇辰,吴华,王海峰,文继荣

通讯作者:刘璟,赵鑫

论文概述:通常情况下,训练一个优秀的稠密检索模型离不开大规模的人工标注数据,然而,在很多应用场景和业务问题上,这种与领域相关的大规模标注数据非常难以获得,因此稠密检索模型的零样本域外泛化能力就变得非常重要。在实际应用中,不同领域之间通常存在较大差异,这种zero-shot能力直接影响着稠密检索模型在现实场景中的大规模应用。因此,本文针对zero-shot场景下的稠密检索模型泛化能力进行了较为深入的研究,旨在理解何种因素影响了稠密检索模型的zero-shot泛化能力,以及如何改善这些因素从而提升模型的zero-shot泛化能力。为此,我们设计了充分的实验,从源域query分布、源域document分布、数据规模、目标域分布偏移程度等几个方面进行了全面的分析,并发现了不同因素对模型zero-shot泛化能力的影响。另外,我们还系统梳理了近期出现的几种提升zero-shot泛化性能的优化策略,并指出每种策略是如何影响上述几个因素从而实现改进的。

论文介绍

论文题目:Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting(Findings of EMNLP)

作者:黄浩洋*,唐天一*,张冬冬,赵鑫,宋挺,夏炎,韦福如

通讯作者:张冬冬

论文概述:大语言模型 (LLM) 展示了令人印象深刻的多语言能力,但它们的性能在不同语言之间存在很大差异。在这项工作中,我们介绍了一种简单而有效的方法,称为跨语言思维提示(Cross-Lingual-Thought,XLT),以系统地提高大模型的多语言能力。具体来说,XLT 是一个通用模板提示,可以激发跨语言和逻辑推理技能,从而提高跨语言的任务表现。在推理、理解和生成任务的 7 个典型基准的实验结果表明,XLT不仅显着增强了各种多语言任务的性能,而且显着缩小了不同语言中每个任务的平均性能与最佳性能之间的差距。

论文介绍

论文题目:ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on Chat-based Large Language Models(Findings of EMNLP)

作者:陈志朋*,周昆*,张北辰,龚政,赵鑫,文继荣

通讯作者:赵鑫

论文概述:尽管大语言模型在各种评测任务中取得了优秀的成绩,但是这些模型仍然在复杂推理任务上表现不佳。这类任务要求模型具有特定的知识,并且需要进行多步推理以得到最终答案。为了能够进一步提升语言模型的推理能力,本工作提出了ChatCoT。这是一个面向对话型大语言模型(如ChatGPT)设计的基于工具增强的思维链推理框架。在ChatCoT中,我们使用多轮对话来建模思维链推理,通过对话的过程更自然地使用外部工具辅助大模型进行推理。在每一轮对话中,大模型可以选择与工具进行交互或者进行推理。我们的方法有效地利用了对话型大语言模型的多轮对话能力,并且统一了思维链推理和工具使用。特别地,我们使用工具、任务和推理形式的相关知识来初始化对话历史,并提出了一种基于工具使用的迭代推理步骤来进行逐步的推理。在两个复杂推理任务上(MATH和HotpotQA),ChatCoT展现了其有效性,比目前效果最好的方法取得了7.9%的相对提升。

论文介绍

论文题目:Enhancing Scalability of Pre-trained Language Models via Efficient Parameter Sharing(Findings of EMNLP)

作者:刘沛羽*,高泽峰*,陈昱硕,赵鑫,文继荣

通讯作者:赵鑫

论文概述:在这篇论文中,我们提出了一种参数高效的方法,用于将预训练语言模型(PLMs)扩展到更深的模型深度。具体来说,我们设计了一种基于矩阵乘积运算符(MPO)的更强大的参数共享架构,这是一种高效的张量分解方法,用于将参数矩阵分解为一组局部张量。基于这种分解,我们在所有层之间共享重要的中心张量,以减小模型大小,同时保留层特定的张量(以及Adapter结构),以增强自适应性。为了解决深层模型训练不稳定的问题,我们进一步提出了一种针对基于MPO架构的稳定初始化算法。广泛的实验证明了我们提出的方法能够有效增强模型可扩展性(即使用比BERT_base更少的参数,我们成功地将模型深度扩展了4倍,并且甚至在GLUE分数上比BERT_large高0.1分)。

论文介绍

论文题目:Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search (Findings of EMNLP)

作者:毛科龙,窦志成,莫冯然,侯杰文,陈浩楠,钱泓锦

通讯作者:窦志成

论文概述:精确理解用户的上下文搜索意图一直是对话式搜索的一个重要挑战。由于对话式搜索会话更加多样化且长尾化,现有的基于有限数据的训练方法仍然无法满足在真实对话式搜索场景中的有效性和鲁棒性。近期,大型语言模型(LLMs)已经展现了在文本生成和对话理解上的惊人能力。在这项工作中,我们提出了一个简单但有效的提示框架,称为LLM4CS,利用LLMs作为基于文本的搜索意图解释器来帮助对话式搜索。在此框架下,我们探索了三种提示方法,生成多个查询重写和假设性的响应,并提议将它们聚合成一个集成表示,这可以鲁棒地表示用户的真实上下文搜索意图。在三个广泛使用的对话式搜索基准测试上,包括CAsT-19、CAsT-20和CAsT-21,进行了大量的自动评估和人工评估,结果显示我们简单的LLM4CS框架与现有方法相比,甚至与人工重写相比,都表现出卓越的性能。我们的发现为更好地理解和利用LLMs进行对话式搜索提供了重要的证据。

论文介绍

论文题目:Joint Semantic and Strategy Matching for Persuasive Dialogue (Findings of EMNLP)

作者:金楚浩, 朱余韬, 孔令真, 李世杰, 张骁, 宋睿华, 陈旭, 陈欢, 孙宇冲, 陈彧, 徐君

通讯作者:宋睿华

论文概述:说服性对话的目标是通过对话来说服用户达成某些目标。虽然以前的说服模型取得了显著的成功,但它们主要基于话语语义匹配,忽略了一个重要方面,即对话策略匹配,例如,代理模型可以选择情感诉求策略来打动用户。与话语语义相比,对话策略是高层次的概念,可以提供补充信息以实现有效的说服。在本文中,我们提出通过共同建模对话语义和策略来构建说服模型。具体地,我们设计了一个BERT-like模块和一个自回归预测器分别匹配语义和策略。实验结果表明,我们提出的方法在Recall@1方面,可以将最先进的基线在小数据集上提高5%,在大数据集上提高37%。详细的消融分析和线上实验都展示了提出方法的有效性。

论文介绍

论文题目:Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression (Findings of EMNLP)

作者:刘纪端,刘家豪,王奇凡,王金刚,蔡勋梁,赵东岩,王然,严睿

通讯作者:赵东岩,严睿

论文概述:大规模预训练语言模型(LLMs)在多种自然语言处理任务中展现出卓越的性能。然而,这些模型庞大的规模给它们在实际应用中的部署带来了巨大挑战。尽管已经提出了许多模型压缩技术,但大部分并不适用于在模型规模存在显著差异时实现极端的模型压缩。本文提出了一种新颖的压缩范式,称为“基于检索的知识迁移”,该范式能够有效地将LLMs的知识传递至极小规模模型(例如1%的规模)。具体而言,我们的方法从LLMs中提取知识以构建知识库,小规模模型可以从中检索相关信息并利用其进行有效推理。为了提高模型的质量,我们采用了soft prompt tuning和强化学习PPO算法对LLMs进行微调。我们在SuperGLUE和GLUE的低资源任务上进行了大量实验证明,我们提出的方法通过利用来自LLMs的知识显著提升了小规模模型的性能。

论文介绍

论文题目:Improving Input-label Mapping with Demonstration Replay for In-context Learning (Findings of EMNLP)

作者:龚卓成,刘家豪,王奇凡,王金刚,蔡勋梁,赵东岩,严睿

通讯作者:赵东岩,严睿

论文概述:上下文学习(ICL)是大型自回归语言模型的一种新兴能力,其只需将几个输入-标签示例添加到输入中以增强模型对下游NLP任务的理解,而无需直接调整模型参数。ICL的有效性可以归因于大型语言模型(LLMs)的强大语言建模能力,使其能够根据在上下文中的示例学习输入和标签之间的映射。尽管取得了有希望的结果,但ICL中语言建模的因果性质限制了注意力只能向后,即,一个标记只关注其前面的标记,无法捕获全部的输入-标签信息,限制了模型的性能。在本文中,我们提出了一种名为“滑动因果注意力的重复示例”(RdSca)的新型ICL方法。具体来说,我们复制后面的示例并将它们连接到前面,使模型能够在因果限制下“观察”到后面的信息。此外,我们引入了滑动因果注意力,这种注意力定制了因果注意力以避免信息泄漏。实验结果表明,我们的方法显著提高了ICL示例中的输入-标签映射。我们还进行了深入的分析,探讨如何在没有训练的情况下定制因果注意力,这在以前的研究中一直是未探索的领域。

论文介绍

论文题目: Stylized Dialogue Generation with Feature-Guided Knowledge Augmentation (Findings of EMNLP)

作者:李金鹏,张泽楷,陈秀颖,赵东岩,严睿

通讯作者:赵东岩,严睿

论文概述:风格化对话生成系统的目标是生成上下文连贯的对话,同时可以有效地模仿所需的风格。生成风格化对话具有很大地应用价值,但由于缺乏高质量地监督数据,导致该任务极具挑战性。现有方法通常通过反译法合成伪数据,由于对目标风格特征的指导不足,这种方法导致生成过程中的风格信号噪音多且与语境不符。为解决这一问题,我们提出了知识增强地风格化对话生成模型,并设计了一个特征引导的选择模块,该模块通过对比学习和风格响应KL散度联合优化。具体来说,我们从风格语料库中检索与当前对话相关的风格句子,提供显式地风格信号,并利用特征引导的选择模块进行信息筛选,通过这种方式可在语义和风格化两个层面上增强模型的生成能力。实验结果表明,我们的方法在两个公开的风格化对话基准数据集上表现出了令人满意的性能。

论文介绍

论文题目:Logic Unveils Truth, While Disguise Obscures It: Transition Logic Augmented Response Selection for Multi-Turn Dialogue (Findings of EMNLP)

作者:付廷琛*,赵学亮*,刘乐茂,严睿

通讯作者:严睿

论文概述:多轮对话回复选择旨在从候选池中检索对话上下文的回复,负采样是其检索性能的关键。然而,由于开放域对话中的一对多特性,以前的负样本方法往往会产生假的负样本,这对优化过程不利。为了解决这个问题,我们提出了一种序列变分梯形自动编码器来捕捉开放域对话中多种特征的多样的一对多的转换模式。因此,我们所学习的转换逻辑有助于识别潜在的正样本。同时,我们提出了一个TRIGGER框架来调整训练过程中的负采样,使假的负样本的控制范围根据模型能力来动态更新。我们在两个数据集上进行的大量实验验证了方法的有效性。

论文介绍

论文题目:Variator: Accelerating Pre-trained Models with Plug-and-Play Compression Modules(Findings of EMNLP)

作者:肖朝军,罗宇琦,张文斌,张朋乐,韩旭,林衍凯,张正彦,谢若冰,刘知远,孙茂松,周杰

通讯作者:韩旭,刘知远

论文概述:预训练的语言模型在NLP任务上取得了突出的效果,但这需要大量的参数和相应的计算成本。本文中,我们提出了一种名为“Variator”的参数高效的加速算法,它利用可即插即用的压缩插件来提高计算效率。与传统的模型压缩方法相比,Variator具有两大明显优势:(1)在实际应用中,Variator的压缩插件能即插即用,这意味着我们可以根据当前的计算需求动态地选择不同的压缩率。(2)这些压缩插件由少量参数的小神经网络层构成,这大大节省了存储和内存。具体来说,Variator将预训练模型中某层的多个隐向量压缩为一个向量来减少模型需要处理的序列长度,从而减少计算量。实验验证表明,Variator能够在只增加0.9%的参数的情况下,节省高达53%的计算成本,并且性能损失小于2%。更令人印象深刻的是,当模型参数数量达到数百亿时,Variator的性能仍然与原始未压缩的预训练模型相当。

论文介绍

论文题目:Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models (Findings of EMNLP)

作者:陈纬泽,徐潇悦,韩旭,林衍凯,谢若冰,刘知远,孙茂松,周杰

通讯作者:韩旭,刘知远

论文概述:参数共享的预训练模型已经成为资源受限环境中的一种成功方法,可以在不显著降低性能的情况下,减少模型存储和内存成本。然而需要注意的是,参数共享并不减轻与推理相关的计算负担,因此在具有严格的延迟要求或计算资源有限的情况下,其实际可行性受到阻碍。基于神经普通微分方程,我们引入了一种简单的技术,以提高参数共享的预训练模型的推断效率。此外,我们提出了一种简单的预训练技术,可以得到部分共享参数的模型,并对其实现推理加速。实验结果表明,我们的方法对自回归和自编码的预训练语言模型都具有有效性,为在资源受限环境中更有效地利用参数共享模型提供了新的见解。

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox