近日,中国人民大学高瓴人工智能学院师生与香港中文大学、阿里巴巴合作的论文被国际学术会议SIGMOD(2024)录用,该论文的第一、二作者分别为高瓴人工智能学院博士生李家郡和雷润林,通讯作者为魏哲巍教授。2024年国际数据管理大会(ACM SIGMOD/PODS International Conference on Management of Data)将于2024年6月9日-6月15日在智利圣地亚哥召开。SIGMOD是中国计算机学会(CCF)推荐的A类国际学术会议,是数据库领域最顶级的会议之一。
论文介绍
论文题目:Learning-based Property Estimation with Polynomials
论文作者:李家郡,雷润林,王思博,魏哲巍,丁博麟
通讯作者:魏哲巍
论文概述:在数据库领域中,不同元素个数、熵、幂次和等数据性质常是各类问题的重要特征。这些性质在查询优化、数据压缩、机器学习等实际问题中均有应用。当数据规模非常庞大时,通常使用采样的方法对数据性质进行估计。传统的估计方法大多依据特定的数据分布和假设设计一个固定的统计量。尽管这些方法有一定的理论保证,但它们依赖于数据分布的特定假设,因此在真实场景中表现一般。最近也有一些方法基于机器学习对数据性质进行估计,但这些方法缺少理论保证。针对以上问题,我们提出了一个统一的多项式近似的可学习性质估计框架。我们将性质估计问题转换为带权多项式估计问题,使用学习的方法优化多项式的系数,保留系数的理论意义与可解释性。相较于之前需要针对不同数据性质估计背景,设计不同估计器,我们统一的多项式近似的可学习性质估计框架只需要根据不同问题调整多项式近似函数。在合成数据和真实数据下的实验都表示,我们的方法优于传统的统计量估计器,同时也有一定的理论保障。
检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的速模式浏览,或者使用谷歌、火狐等浏览器。
下载Firefox