上QQ阅读APP看书,第一时间看更新
1.4 有监督学习与无监督学习
在机器学习领域,有监督学习和无监督学习是两种常用的方法。有监督学习是通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。在监督式学习中,训练数据集一般包含样本特征变量及分类标签,机器使用不同的算法通过这些数据推断出分类的方法,并用于新的样本中。目前有监督学习算法已经比较成熟,并且在很多领域都有很好的表现。
而无监督学习,或者说非监督式学习,则是在没有训练数据集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题解决方案的方法。在无监督学习当中,常见的两种任务类型是数据转换和聚类分析。
其中数据转换的目的是,把本来非常复杂的数据集通过非监督式学习算法进行转换,使其变得更容易理解。常见的数据转换方法之一便是数据降维,即通过对特征变量较多的数据集进行分析,将无关紧要的特征变量去除,保留关键特征变量(例如,把数据集降至二维,方便进行数据可视化处理)。
而聚类算法则是通过把样本划归到不同分组的算法,每个分组中的元素都具有比较接近的特征。目前,聚类算法主要应用在统计数据分析、图像分析、计算机视觉等领域。