数据挖掘竞赛实战:方法与案例
上QQ阅读APP看书,第一时间看更新

1.1 数据挖掘竞赛的发展

人工智能竞赛的发展历史可以追溯到20世纪90年代(甚至更早)。在它的发展过程中的一些重要时刻如下。

 1997年:首届KDD Cup(国际知识发现和数据挖掘杯竞赛)竞赛开始举办,这是由ACM(Association for Computing Machinery,美国计算机协会)的知识发现和数据挖掘专委会主办的数据挖掘研究领域的国际顶级赛事,被称为数据挖掘领域最有影响力的赛事,其中KDD的英文全称为knowledge discovery and data mining,即知识发现与数据挖掘。

 2006年:美国视频流媒体公司Netflix发起Netflix Prize百万美元奖金的竞赛,竞赛的目标是改进Netflix推荐系统的准确性,以帮助用户更好地发现自己喜欢的内容。该竞赛吸引了众多专业人士投身于推荐系统领域的研究工作,也让这项技术从学术圈真正地进入商业界。

 2010年:Kaggle平台成立,这一平台专为开发人员和数据科学家设计,提供了举行机器学习竞赛、托管数据库以及编写与共享代码的服务,如今Kaggle已发展成为机器学习竞赛领域的关键平台。同年,ImageNet大规模视觉识别挑战赛(ILSVRC)启动,要求选手使用机器学习技术对大规模图像数据进行分类,这项赛事极大地推动了深度学习的发展。

随着人工智能技术的不断发展,KDD Cup竞赛的规模不断扩大,竞赛类型也变得越来越多样化。

表1.1是近十年KDD Cup常规赛道的赛事情况,从中可以看出,赛题的奖池金额、参赛队数量都有不断增大的趋势。

表1.1 历年KDD Cup常规赛道的赛事情况

图1.1是Kaggle平台历年新注册用户数量的情况,可以看出,Kaggle平台用户数量增长非常迅猛,每年的新注册用户数量都在上升。根据统计,截至2022年累计用户数量已经突破1000万。

图1.2为Kaggle平台2022年举办各种竞赛类型的比例,可以看出,结构化数据竞赛仍然是数据挖掘竞赛的最主要类型,其次是计算机视觉竞赛和自然语言处理竞赛。强化学习作为近年来新兴的热门领域,也出现了相关的赛事。

图1.1 Kaggle平台历年新注册用户数量

图1.2 Kaggle平台2022年举办各种竞赛类型的比例