2.3.1 聚类分析定义_Python大数据分析算法与实例-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

2.3.1　聚类分析定义

1．聚类应用

随着信息技术高速发展，数据库应用的规模、范围和深度不断扩大，导致积累了大量的数据，而这些激增的数据后面隐藏着许多重要的信息，因此人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效、方便地实现数据的录入、查询、统计等功能，但是无法发现数据中存在的各种关系和规则，更无法根据现有的数据预测未来的发展趋势。而数据聚类分析正是解决这一问题的有效途径，它是数据挖掘的重要组成部分，用于发现在数据库中未知的对象类，为数据挖掘提供有力的支持，它是近年来广为研究的问题之一。

聚类分析是一个极富有挑战性的研究领域，采用基于聚类分析方法的数据挖掘在实践中已取得了较好的效果。聚类分析也可以作为其他算法的预处理步骤，聚类可以作为一个独立的工具来获知数据的分布情况，使数据形成簇，其他算法再在生成的簇上进行处理。聚类算法既可作为特征和分类算法的预处理步骤，也可将聚类结果用于进一步的关联分析。迄今为止，人们提出了许多聚类算法，这些算法都试图解决大规模数据的聚类问题。聚类分析还成功地应用在模式识别、图像处理、计算机视觉、模糊控制等领域，并在这些领域中取得了长足的发展。

2．数据聚类

所谓聚类，就是将一个数据单位的集合分割成几个称为簇或类别的子集，每个类中的数据都有相似性，它的划分依据就是“物以类聚”。数据聚类分析是根据事物本身的特性，研究对被聚类的对象进行类别划分的方法。聚类分析依据的原则是使同一聚簇中的对象具有尽可能高的相似性，而不同聚簇中的对象具有尽可能高的相异性。聚类分析主要解决的问题是如何在没有先验知识的前提下，实现满足这种要求的聚簇的聚合。聚类分析称为无监督学习（Unsuper-Vised Study），主要体现在聚类学习的数据对象没有类别标记，需要由聚类学习算法自动计算。