Python大数据分析算法与实例
上QQ阅读APP看书,第一时间看更新

2.3.3 聚类应用

1.数据聚类需要解决的问题

在聚类分析的研究中,有许多急待进一步解决的问题,比如:

  •  处理大数据量、具有复杂数据类型的数据集合时,聚类分析结果的精确性问题。
  •  对高属性维数据的处理能力。
  •  数据对象分布形状不规则时的处理能力。
  •  处理噪声数据的能力,能够处理数据中包含的孤立点以及未知数据、空缺或者错误的数据。
  •  对数据输入顺序的独立性,也就是对于任意的数据输入顺序产生相同的聚类结果。
  •  减少对先决知识或参数的依赖性等问题。

这些问题的存在使得我们研究高正确率、低复杂度、I/O开销小、适合高维数据、具有高度的可伸缩性的聚类方法迫在眉睫,这也是今后聚类方法研究的方向。

2.数据聚类的应用

聚类分析可以作为一个独立的工具来获得数据的分布情况,通过观察每个簇的特点,集中对特定的某些簇进行进一步的分析,以获得需要的信息。聚类分析应用广泛,除了在数据挖掘、模式识别、图像处理、计算机视觉、模糊控制等领域的应用外,它还被应用在气象分析、食品检验、生物种群划分、市场细分、业绩评估等诸多方面。例如在商务上,聚类分析可以帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征;聚类分析还可以应用在欺诈探测中,聚类中的孤立点就可能预示着欺诈行为的存在。聚类分析的发展过程也是聚类分析的应用过程,目前聚类分析在相关领域已经取得了丰硕的成果。