上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
(一)基于决策树的分类方法
对于基于决策树的分类方法,其分类规则采用树的形式来表示。在进行分类时,基于决策树的分类方法通过自上而下的数据对象的属性值比较来确定叶子的走向,进而通过树的叶子来表示其最终分类结果。常见的基于决策树的分类算法主要有ID3算法(朱颢东,2010)、SLIQ算法(张海堂,2011)、CART算法(Tang,2017)以及C4.5算法(Lee,2018)等,它们的主要区别体现在其决策树的构造策略、属性的判断方法以及剪枝算法等方面的不同。
决策树算法接近人类的思维方式,解释性较强,而且容易理解。该分类方法的主要优点有:①算法鲁棒性较好;②容易解释和理解;③对数据量的要求较小;④时间复杂度低;⑤可以处理的数据类别多;⑥为了验证模型的可靠性,可以使用统计检验来验证模型。
该分类方法的主要缺点有:①容易造成过拟合,需要通过剪枝策略来避免;②分类结果不够稳定,通常可以采用集成决策树来提高分类结果的稳定性;③该算法是基于启发式的算法,不能保证返回全局最优决策树;④学习者容易创建有偏异的树。