上QQ阅读APP看书,第一时间看更新
1.1 机器学习中的数据集
机器学习的本质是从数据中确定模型参数并利用训练好的参数进行数据处理,其基本实现流程如图1-1所示。
图1-1 机器学习的基本实现流程
“数据决定了机器学习的上限,而模型和算法只是逼近这个上限。”由此可见,数据对于整个机器学习项目至关重要。
注意
数据集中或多或少都会存在部分缺失、分布不均衡、分布异常、混有无关紧要的数据等问题。这就需要对收集到的数据进行进一步的处理,这样的步骤叫作“数据预处理”。
在机器学习中,一般将数据集划分为两大部分:一部分用于模型训练,称作训练集(Train Set);另一部分用于模型泛化能力评估,称作测试集(Test Set)。在模型训练阶段会将训练集再次划分为两部分,一部分用于模型的训练,而另外一部分用于交叉验证,称作验证集(Validation Set),如图1-2所示。
图1-2 训练集、验证集和测试集的示意图
如图1-3所示,对训练集、测试集、验证集可以有如下的理解:学生课本中的例题即训练集;老师布置的作业、月考等都可以算作是验证集;高考为测试集。学生上课过程中所学习到的知识以及课上做的练习题就是模型训练的过程。
图1-3 对训练集、测试集、验证集的形象理解