您所在的位置: 首页- 新闻公告- 学院新闻-

学院新闻

会议回顾|第二次“智慧司法研究与应用”研讨会
日期:2021-06-29访问量:


image001.png

6 月 17 日,由中国人民大学高瓴人工智能学院、智能社会治理跨学科交叉平台和基于大数据文科综合训练国家级虚拟仿真实验教学中心联合主办的第二次智慧司法研究与应用研讨会在我校召开。

来自最高人民法院、最高人民检察院的相关领导,以及我校发展规划处处长杨东教授、高瓴人工智能学院执行院长文继荣教授到场致辞。与会专家有清华大学计算机科学与技术系刘奕群教授、大连理工大学计算机学院孙媛媛教授、中科院自动化研究所刘康研究员、中国人民大学法学院张吉豫副教授、北京大学王选计算机研究所冯岩松副教授、北京科技大学文法学院张凌寒副教授、中国人民大学数学科学研究院龚新奇教授、文学院卢达威助理教授、公共管理学院梁海伦助理教授,清华大学计算机科学与技术系的吴玥悦博士后研究员,以及中国人民大学高瓴人工智能学院副院长窦志成教授、准聘助理教授沈蔚然、博士后研究员张骁等。会议由高瓴人工智能学院准聘助理教授周骁主持。

image002.png

研讨会上,清华大学刘奕群教授分享了题为“面向司法公开的智能信息获取技术”的报告,介绍了清华大学在面向司法公开的智能信息获取技术的工作。他表示,随着我国司法信息化和智能化相关技术的推进,中国实际上已建成了全球最大规模的司法信息公开的数据资源,这提供了一个非常好的技术与司法服务发展机遇,希望下一步能把这个数据资源利用好,将技术前沿应用到司法场景中,加快推进包括司法人工智能在内的科研进展。智能信息获取是其团队选取的一个重要技术切入点。

报告首先从法律信息智能获取的痛点和挑战展开。司法公开信息的智能获取面临着两方面的迫切需求,一方面来自于司法实务,另外一方面是政策指引。从司法实务的角度来讲,无论是法律工作者还是普通社会公众都有能够顺利访问司法数据的需求。而从政策上来讲,最高法出台了一系列关于推进司法公开的指导意见,这就要求每位法律工作者在日常工作中进行司法的智能信息获取。

关于这一要求带来的挑战,刘奕群教授将其概括成两方面,一方面是用户身份的异质化,另一方面是司法数据的异构化。用户身份的异质化,最主要的原因来自于获取司法信息的用户,他们的知识背景和对于司法场景的理解千差万别。这其中既有法律专家和法官、检察官,也有社会公众,各类群体对同样文字内容的理解程度可能大相径庭。第二个是司法数据的异构化,司法公开数据中存在着无结构化、半结构化和结构化的各类内容,如何从其中提取有价值的知识供给给用户是需要考虑的问题。

从应用角度来讲,用户需求如此迫切,且信息资源也很丰富的情况下,法律信息的智能获取效果仍难以尽如人意。一是“类而无用”,也就是检索出的内容尽管文本相似度极高,但对用户价值并不大;二是“千人一面”,即在用户高度异质化的前提下,不同用户搜索出的内容却高度一致,这需要更加合理的技术建模,使传统信息检索系统具有个性化、多样化搜索能力;三是信息获取过程缺乏准确的反馈和性能评价。

针对以上问题,刘奕群教授及其团队开展了一系列探索,包括通过大量相关性分析、相似度计算以及多样性挖掘,来尝试增加对司法数据本身的理解,并主动提取案由,以标签形式呈现给用户,以段落级别处理代替相似度计算等,以此提高个性化检索。

刘奕群教授指出,不同用户的阅读速度和注意力关注点等都是有差异的,他们开展了大量的用户行为差异分析和用户意图表达分析,并将用户在互联网搜索中构建出的模型迁移到法律信息搜索中,希望能够构建出一个更合理的符合类案检索行为的用户模型,并已取得了国际认可的一些成绩。同时,还构建了第一个中文大规模的多样性类案检索数据集。刘奕群教授还对对话式交互在类案检索中的应用进行了探讨,重点试图解决的是对话式交互到底能不能协助用户更好的查找信息的问题,特别是在类案检索的任务中。团队所做的尝试是让专家来扮演机器人,去跟一些司法类案检索的用户去进行交互,把完整的交互过程记录下来,不仅仅是记录两人的交互,更重要的是记录专家是如何去查找信息的过程,之后进一步把专家的行为作为机器的一个参考。

报告最后,刘奕群教授也介绍了对未来的研究规划。他指出,司法公开信息智能获取是贯彻“司法为民”理念的非常重要的一个平台。未来的智能获取应当是可表示、可理解、可解释的,同时对用户来讲,它应该是一个探索式、自学习,能够促进用户本身对于法律知识有更多认知的过程,能够提供高效、准确,且更加安全的服务的平台。他们将着力设计一个以搜索引擎和推荐系统为核心的司法公开信息智能集成平台,试图通过人工智能技术进一步推进司法信息获取的发展,让“车之两轮”更加行稳致远,让“鸟之双翼”能够展翅高飞。

image003.png

来自大连理工大学信息检索研究室的孙媛媛教授分享了题为“信息抽取技术在司法业务中应用探索”的报告。

孙媛媛教授首先介绍了其课题组所做的工作,包括基于判决书、起诉书、法律条文、电子卷宗中的言辞证据等海量文本数据,用自然语言处理技术对其进行案件信息抽取和知识图谱构建;以及通过控辩焦点识别等核心算法研究来对智能辅助判案中做诸如智能阅卷、案情辅助研判的技术支撑。

她的报告主要围绕案件信息抽取任务。针对嵌套实体体量巨大、司法案情细节易失问题,孙媛媛教授团队做了基于阅读理解的嵌套命名实体识别的尝试。她表示,这是一个具体且基础的任务,以盗窃罪的命名实体识别为例,它实际上是有四种嵌套关系,包括人和物品、组织和地点、物品和物品,以及人与地点的嵌套。此外在面向办案人员的时候,实体信息就是关于案件的各种关键信息,包含时间、地点、人物、涉案工等等。通过设定十类问题模板,使用阅读理解模型来解决,总体来说取得较好的嵌套实体识别效果。

此外,面向句法依存利用不足、高阶近似开销巨大的研究问题,他们开展了基于图神经网络的二元关系抽取;针对处理多罪名案件情境下的实体关系抽取任务,以及不同罪名的法律文书中涉及到的案情内容不同,对应于细粒度的涉案实体及其关系标签也有所不同等研究问题,团队也开展了基于多任务学习的多罪名实体关系抽取。

在该研究的产业应用方面,孙教授介绍了电子卷宗智能辅助分析系统。孙教授称,该系统基于非结构化的司法业务文本,能够自动抽取比较规范的法律文书中包含的关键信息,同时也能提取电子卷宗询问/询问笔录中涉及犯罪嫌疑人、受害人、证人等的言词证据,对办案人员起到快速阅卷和厘清案情的作用。另外还有辅助文本生成的任务,可以辅助生成审查报告,减轻检察官工作量,且该系统已在最高检信息中心和辽宁省检察院进行了示范应用部署。

在谈到展望时,孙教授称,期望通过持续加强基础性研究、模型可解释性研究,探索人机协同运作模式等方式,将多维度实时抽取、分布式计算知识图谱、证据关联分析、自动摘要和文本生成等核心的算法技术真正应用到司法的全业务全链条中,包括起诉、审判等各个环节,帮助司法人员提高效率。

image004.png

北京科技大学文法学院张凌寒副教授的报告主要聚焦在智慧司法当中的技术垄断隐忧与应对。她提出,在推进智慧司法过程中,应保证当事人能够审核和实质参与司法过程,同时,算法系统的正当性、稳定性和准确性也应进行充分的评估和公开,多一些事前审查。

在报告中,张凌寒副教授表示,智慧司法研究存在三个难题。第一个难题是技术公司的垄断和服务是否会违背权利专属原则,也就是司法权力外包给私营技术公司是否具有正当性是存疑的。第二个问问题是监督难题,即在司法体系中是否存在通用的判断程序和标准。第三个问题追责难题,也就是责任链条分配的困境。在多方协作的情况下,如何分配算法开发者、供应商和机器之间的责任,是需要考虑的问题。

针对以上三个问题,她提出了三点应对措施。首先,司法公开是否可以扩展到算法决策的解释和公开。其次,由于现在很多智慧司法和企业之间的合作是以招投标或者是技术委托的形式合作的,在这种招投标和委托之前,是否可以把评估标准范围扩大一点,将评估系统作为事前公众参与和事后监督的办法。第三,针对如何分配责任,张凌寒称,需要在算法的设计开发部署和应用过程中,去设置一些固定的问责点,并要求设计开发者去做一些相关解释工作。

image005.png

来自北京大学王选计算机研究所的冯岩松副教授做了题为面向法律文本的自然语言理解的主题报告。

冯岩松的报告主要聚焦在自然语言处理在司法领域的应用。他介绍了近年来国内外学术界围绕法律文书开展的信息抽取、文本生成、焦点分析以及辅助决策等方面的研究进展,并介绍了面对语言表述差异性、文本类型差异等问题所做的一些针对性的尝试,例如运用法律知识对法条进行细粒度表示以及对法律文书中的论辩结构进行解析等。

最后,冯岩松副教授介绍了其团队在海事海商这一特定领域所做的研究。由于海事海商案件类型多样、涉及领域广、数据规模有限,且事实经过复杂等等因素,需要研究人员熟悉业务流程,从典型案由中拆解出基本业务模式和关键信息点,结合深度学习模型进行关键信息抽取,设计争议焦点检测方法和语义匹配方法,以实现细粒度类案或相关法律资源检索。

报告最后,冯岩松副教授表示,尽管在智慧司法领域已有很多深度学习模型的支持,可以实现不同类型的文本分类和生成,但实际上现有模型对于文本的理解仍然停留在比较初步的阶段,下一步仍然需要更进一步的注入法律知识,针对法律文本理解的核心问题深入研究和探讨。

image006.png

中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师刘康老师首先介绍了他和团队从 2018 年起开展的“面向案件审判执行全流程的智能问答技术与平台”课题研究进展。研究项目重点是面向案件审判过程中不同角色(当事人、法官等)、不同场景下的问答技术,包括类案检索、法条问答、卷宗问答等。

他的报告从项目背景与业务分析、司法问答技术研究进展、司法问答系统研发进展几个部分展开。刘康表示,司法问答面向两类人群:一类是当事人,他们在寻求司法帮助时会有很多除司法领域之外的其他场景的信息需求;另一类是司法机构从业人员,他们在审理的过程中会需要如类案检索、法律条文适配等服务。案件审理的过程中往往分为三个阶段,立案、审判和执行,在不同的场景下所涉及的数据是不同的,因此司法问答应采用不同的技术来处理不同场景下的问题。具体而言,所涉及的问答技术包括了 FAQ 式问答、检索式问答、知识库问答、多轮交互式问答和阅读理解式问答等。

之后,他从开发框架、整体架构、核心功能、数据挖掘、法官阅案、当事人问答、性能优化、终端开发等方面详解介绍了该系统的研发情况。最后,刘康研究员也向与会专家展现了多终端部署的项目成果与应用示范。

image007.png

中国人民大学未来法治研究院执行院长、法学院张吉豫副教授的报告主题为“智能社会著作权的算法实施与规制”。她指出,在著作权领域,特别是网络空间的著作权侵权纠纷案件层出不穷,司法保护面临着“案多人少”的困境。例如谷歌 2020 年透明度报告中披露,已经要求移除的网络侵权网址数超过了 46 亿,北京互联网法院成立以来所处理的著作权相关案件也超过了 2 万多件。因此可想而知,如果没有一定的智能技术在平台中进行解决的话,是不可能完成这样庞大的任务量的。在此背景下,人工智能技术已经广泛应用在了包括文字、图片、音乐、影视等各类作品的侵权检测实践中。与此同时,由于互联网法院的成立提高了司法诉讼效率和便利度,有效改进了司法成本,一些过去无需进入司法程序的边际性案件也更多地流入了司法程序,导致司法诉讼压力并未得到有效改善。在社会高速发展的状况下,如何提高司法解释和法律适用性,成为知识产权领域司法改革的一大重点。

张吉豫副教授认为,利用技术对案件进行繁简分流可以一定程度上解决这一问题。除了为司法部门提供智能检测工具外,也应更多考虑在源头阶段就引导进行多元化纠纷解决。对此,她介绍了从平台自发采用侵权检测算法、司法裁判对平台责任加重、立法确立新原则这三个维度,激励网络空间中著作权的算法实施机制和规制创新与发展的对策建议。

平台自发处理侵权问题方面,比较典型的有 YouTube 的做法,即著作权人可以提供他们希望受保护作品的参考文件,加入到数据库中,平台将对相应用户上传的文件进行比对,基于比对的结果,可以考虑是否可以许可使用并获得广告分成等一些方式,去尽量获得世界范围内的合作共赢的一种局面;司法裁判对平台责任加重方面,她以韩寒诉百度一案为案例,介绍了由此发展出的司法解释调整;立法确立新原则方面,张吉豫副教授介绍了自动化侵犯著作权内容过滤算法应用的主要问题,和算法规制路径中的几种考量和配套机制。她认为,应从风险级别、用户权利、公众监督三个维度来综合考量,其规制机制应以信息的合法高效流通原则,算法权力与公权力、私权利平衡原则,共享经济、新零工经济的“助推型”治理理念,“共建共治共享”的社会治理理念等智能社会的法理信念为指引,构建用户与平台之间新的利益平衡机制、超越“过滤义务”的多元共治机制、著作权状态及归属的公信认证机制、争端解决的“在线合议”机制。

报告最后,张吉豫副教授总结称,著作权领域法律的算法实施较早地开始实践,为相关研究提供了一个有益的观察视角。这种法律与技术协同治理、司法与社会多方合作的新探索,将为智能社会治理理念的实现路径提供有益的示例。

image008.png

中国人民大学高瓴人工智能学院张骁博士后研究员的报告主题是“智能社会治理算法设计的风险及应对”的。他表示,以人工智能算法为工具的智能社会治理模式已成为我国社会的发展趋势。一方面,人工智能算法有效提升了社会管理与公共服务的效能。比如在疫情防控期间,人工智能算法对病例追踪,疫情分析方面起到了很大作用。此外,在保障改善民生,媒体融合发展等方面,人工智能算法也有着十分广泛的应用。

另一方面,由于人工智能算法本身并不一定是针对社会治理的场景,所以目标的偏差,也会使得算法在实际使用中面临一些风险与挑战。总体来说,人工智能算法通过机器学习方法挖掘不同场景下的感知与决策策略,在运用算法极大提高社会运行效率的同时,算法偏差也会带来新的社会治理风险与挑战。

张骁博士后研究员从机器学习算法的定义和本源出发,从数据和归纳偏置两个角度,分析了人工智能算法在智能社会治理中面临的风险及挑战性问题,并围绕隐私性、公平性和可解释性三方面探讨了智能社会治理中算法设计的局限,并提出了增强人工智能算法在社会治理中抗风险能力的一些潜在对策与建议,包括使用联邦学习、差分隐私、目标导向等技术策略,来针对性地规避相应风险。最后,他以类案推送的可解释性和信息推荐中的数据缺失两个应用案例,介绍了归纳偏置诱导的人工智能算法设计方案。张骁建议,今后在设计算法时能从 AI 算法设计本源出发,结合政策引导,在不同领域中做一些约束,以解决未来社会治理将会面临的各类挑战,实现我们人民大学提出的建设一个“智能而有温度”社会的目标。

image009.png

中国人民大学高瓴人工智能学院副院长窦志成教授围绕“司法人工智能的数据驱动”做了报告。窦志成教授表示,当下很多研究人员都在开展人工智能与司法的交叉研究,并碰撞出了不小的火花,证明了这是一个值得我们探索的方向。其原因我想得益于三个方面,一是具有可行性。司法实践应用中的一些流程是标准化的,可以针对特定问题去设计特定的算法来解决;二是有效性。在标准可行的前提下,人工智能技术要发挥作用就应该考虑增量是否有效,也就是算法精度的提高是否会对司法实践产生比较大的影响。这背后我们做过很多小样本问题研究的努力,认为在数据更多的条件下是可以有更多改进的;第三就是司法业务拥有强大的用户基础,这一领域的科研进展是能够为工作人员和老百姓带来便利的。

之后,在介绍研究成果时,窦志成教授列举了三个合作课题为例,并详细介绍了应用背后的研究难点和攻克进展。包括与检察院系统联合开展的从互联网中发现公益诉讼线索的研究、基于大量历史判例对肖像权量刑所做的训练模型,以及在司法专项支持下通过微博渠道梳理《中华人民共和国民法典》的法条适用性问题等。

窦志成教授认为,司法领域与人工智能的交叉融合面临两方面机遇和挑战:一方面,司法领域是人工智能技术可以充分发挥优势的重要方向之一,已开拓的应用十分广泛,包括人脸识别,卷宗识别,辅助定罪量刑,类案检索等等,对实际业务有很大帮助;另一方面,随着人工智能技术的发展,也会给社会带来新的挑战,例如隐私保护,道德伦理规制,算法治理等等,这些问题迫切需要司法领域来为智能时代与智能社会保驾护航。两方面课题都是我们在座各位同仁已经开展,并需要继续加强研究的领域。

报告最后,窦志成教授强调了数据基础的重要性。人工智能研究是基于数据驱动的,这一技术需要有大量的数据来支撑,才能训练出有效的模型,官方推进的数据公开极大地促进了人工智能在司法中的应用。当然,我们也应看到,现有研究只是在一定程度上解决了一些问题,但实际上还存在尚未能突破业务环节的数据障碍和流程障碍等问题,仍然停留在电子化阶段,智慧化的应用还在起步阶段。同时,跨领域和跨专业合作依然面临很多挑战,不同领域的技术和知识如何有效地组合,是今后需要讨论和重点关注的问题。


检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox