您所在的位置: 首页- 新闻公告- 学院新闻-

学院新闻

我院举办“高屋建瓴AI公开课”第11期讲座:Decision Making and Reinforcement Learning
日期:2021-12-06访问量:

中国人民大学高瓴人工智能学院准聘助理教授陈旭博士邀请英国伦敦大学学院(UCL)计算机科学系汪军教授做客学院“高屋建瓴AI公开课”第11期讲座。汪教授以“Decision Making and Reinforcement Learning”为题,围绕机器决策与多智能体AI的最新技术、算法及其在信息检索领域的应用和未来的研究方向进行了精彩分享。讲座由高瓴人工智能学院执行院长文继荣教授主持。

汪军教授首先从信息检索的角度回顾了自己此前的工作,介绍了AI的决策和信息决策的意识,并指出其中的deversity问题、training和test中MLE问题。上述问题可借助 GAN 来解决,利用额外的agent,通过min-maxgame纠正traning和test的偏差。SeqGAN和IRGAN就是上述方法的体现。之后,他比较了Generativ和Discriminative两种IR模型的优劣性,并介绍了将二者结合的IRGAN,以及动态信息检索。

讲座第二部分,汪教授介绍了决策和强化学习的最新发展。包括多智能体强化学习如何model一个population的行为,以及“Mirror-test”和笛卡尔对Human-mind的思考,引出意识这一概念——意识是主观感受,感觉到并可以描述给其他人,并介绍了研究意识产生的Blindsight测试。汪教授指出,如何利用这些理论辅助设计神经网络是一个新的研究方向。

汪教授表示,他认为,未来强化学习与信息检索领域的三个研究方向,分别是基于模型的信息检索,基于多智能体学习的经济学模拟,以及如何将大模型用于决策智能和强化学习。

在问答环节,与会师生提问十分踊跃。针对“增强学习是否适合用于自然语言处理和生成领域” 这一问题,汪教授表示,增强学习可以用于优化journey、大模型的参数,以及通过建立一个交互的模型,将对话问题转化为生成式的multi-agent问题。在场听众还就利用强化学习解决TSP问题的思路进行了探讨。汪教授指出,可以从metalevel解决这一问题,通过TSP taskgenerate和solver产生鲁棒性min-max博弈,运用强化学习solver解决polulation问题,直至达到纳什均衡。该方法已整理成论文发表。师生还针对讲座中星际争霸的相关问题展开了热烈讨论。

主讲嘉宾简介

汪军博士是伦敦大学学院计算机科学系教授。汪教授的主要研究兴趣是人工智能和智能系统,包括(多智能体)强化学习、深度生成模型以及它们在信息检索、推荐系统与个性化、数据挖掘、智慧城市、机器人规划和计算广告学领域的应用。

他的团队赢得了首届全球实时竞价算法竞赛,该竞赛共有80多名参与者。汪教授已发表学术论文200余篇,多次获得最佳论文奖。 他曾获微软研究院“超越搜索——语义计算和互联网经济学奖”,以及Yahoo! FREP奖。 他曾担任 ACM CIKM 和 ACM SIGIR 的领域主席。他近期的学术任职包括在ACM SIGIR 2018中担任人工智能、语义和对话的共同主席。

"高屋建瓴AI公开课"项目介绍

“高屋建瓴AI公开课”项目由中国人民大学高瓴人工智能学院发起,旨在扩大人工智能学科影响力、提升学科发展水准。公开课项目命名为“高屋建瓴”,寓意在高瓴人工智能学院的平台上,汇聚高端人才,发出人工智能研究方向高瞻远瞩的声音。



检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox