1.4 各种竞赛的特点
1.结构化数据竞赛
这类竞赛提供的数据为结构化数据,主要关注对数值型或类别型变量的预测能力,如预测房价、用户购买行为等。其中,结构化数据是指表格型数据,它的每一行对应一个数据样本,每一列对应一个特征。
这类竞赛具有如下特征。
(1)结构化数据通常较为复杂,需要进行烦琐的预处理流程,可能出现的难点有大量缺失值、数据噪声大、长尾数据等;
(2)特征工程对这类竞赛的最终结果影响很大;
(3)深度学习模型在这些竞赛中一般并不是最优的选择,因此需要参赛选手对机器学习和数据挖掘的各项技术有较为深入的理解,并且有能力寻找和构建最优的模型结构。
2.自然语言处理竞赛
这类竞赛主要关注计算机理解和处理人类语言的能力,如文本分类、情感分析、机器翻译等。参赛者需要训练能够理解和处理自然语言的模型。由于近年来自然语言处理技术得到了飞速发展,这类竞赛的解题思路也发生了明显的改变。在2016年之前,使用最广泛、性能最优的模型是词袋模型和TF-IDF模型。2016—2018年,词嵌入(word embedding)取代了词袋模型和TF-IDF模型,自2019年起,各种预训练模型的应用变得越来越广泛。
3.计算机视觉竞赛
这类竞赛主要关注计算机处理图像和视频数据的能力,涉及对图像、视频数据进行分类、分割、检测等。参赛选手需要训练能够从图像中提取有用信息的模型(通常是深度学习模型)。
这类竞赛具有如下特征。
(1)视觉模型的训练开销通常较大,因此高性能的GPU服务器对于这类竞赛很重要;
(2)数据增强技术和fine-tuning(微调)是选手提升竞赛成绩的重要技术;
(3)诸如伪标记的其他技术有助于提升模型性能。
4.强化学习竞赛
这类竞赛主要关注计算机通过试错学习解决复杂问题的能力,如游戏AI、控制系统等。选手使用强化学习算法训练机器人或游戏角色在真实或模拟环境中获得最优收益的任务。参赛者需要构建能够根据获得的反馈进行决策的强化学习模型。在强化学习比赛中,通常有多个参赛选手的模型在一个真实或模拟的环境中竞争,最终得分最高的模型获胜。
这类竞赛具有如下特征。
(1)设计合适的奖赏函数很重要,特别是对于奖赏函数很稀疏的场景;
(2)选手需要仔细设计特征提取模型和强化学习模型结构,这对于提升训练效率和模型性能很重要;
(3)可以考虑结合一些深度学习策略和算法,如on-policy(在线策略)、MCTS(蒙特卡洛树搜索)等。