第1章 引言
面对“信息爆炸”,如何迅速从海量数据中获得所需的知识,成为一个迫切需要解决的问题。在这种背景下诞生了数据挖掘(data mining,DM)技术[1]。
随着信息技术的迅猛发展,数据挖掘技术面临的不仅是数据量越来越大的问题,更重要的还是数据的高维度问题。受“维度效应”影响,许多在低维数据空间表现良好的数据挖掘方法,在处理高维数据时,从中发现有价值的知识比较困难,甚至出现错误的结果[2~6]。
具有高维稀疏特征的对象—属性空间中的对象维和属性维的数据都是高维数据,如上所述,不能将传统的数据挖掘方法直接运用到高维稀疏数据的处理中。如果能对具有高维稀疏特征的对象—属性空间进行分割以获得其相应的子空间,那么高维稀疏数据的数据挖掘问题就能转化为维数较低的稀疏特征的对象—属性子空间的数据挖掘问题,高维稀疏数据的数据挖掘问题就会大大简化。
本书重点研究高维稀疏数据问题对象—属性空间识别技术,并针对该领域的若干相关问题,提出一些解决问题的新方法和新思路,并通过实验证明其合理性。
针对具有高维稀疏特征的对象—属性空间识别问题,本书开展如下研究工作。
(1)研究已有的高维数据聚类方法。
研究者用不同的思路设计了不同的高维数据聚类方法,本书将分析这些方法的优点与不足,为进一步提出更合理的方法奠定理论基础。
(2)研究已有的高维稀疏数据常用的数据预处理方法——维数约简方法。
在已有的高维稀疏数据维数约简方法研究工作中,研究者一般从选维(特征选择)和降维两个方面设计维数约简方法。本书将研究分析这些方法的实质,为提出更适合高维稀疏数据的数据预处理方法提供理论参考。
(3)改进和提出高效的高属性维数据聚类方法。
研究分析经典的高属性维数据聚类CABOSFV方法,针对该方法的局限性,提出一种改进的CABOSFV方法,这是本书的一个重要内容。
(4)提出高效的具有高维稀疏特征的对象—属性空间分割方法。
针对高维稀疏数据具有高维度和稀疏性的特点,对具有高维稀疏特征的对象—属性空间直接分割识别其对应的子空间,从而实现高维稀疏数据的预处理。本书将研究具有高维稀疏特征的对象—属性空间分割技术及其子空间进一步的优化问题,通过该技术可以获得具有高维稀疏特征的对象—属性的子空间,这是本书的核心研究内容。
针对以上优化问题和研究内容,本书分为七章。
第1章:论述本书的目的与意义和主要研究内容,最后给出全书的组织结构。
第2章:对本书所涉及的数据挖掘与知识发现理论做了较为基础的概述,重点介绍聚类分析内容、高维数据的形态和特点,分析高维数据常用的预处理方法——维数约简,最后系统概述目前几种主要的高维数据聚类分析方法。
第3章:提出一种改进的CABOSFV高属性维稀疏数据聚类方法。研究分析经典的高属性维稀疏数据聚类CABOSFV方法的不足,提出融合排序思想的高属性维稀疏数据聚类方法。
第4章:给出具有高维稀疏特征的对象—属性空间的定义,提出对具有高维稀疏特征的对象—属性空间分割的方法识别其子空间的思想,并提出一种新型的两阶段联合聚类的方法,实现对高维稀疏数据的对象维和属性维进行聚类分割以识别其子空间。
第5章:提出对象—属性边缘重叠区域的归属判断方法。研究发现了具有高维稀疏特征的对象—属性子空间边缘可能存在交叉重叠区域现象,设计了对象—属性子空间交叉重叠区域的归属判断目标函数。
第6章:提出高维稀疏对象—属性子空间优化方法。通过对对象—属性子空间识别过程的分析,发现对象属性取值全为零的子空间,在此基础上给出了非关联子空间的定义,揭示了非关联子空间的本质。结合冗余理论,得出进行高维稀疏对象—属性子空间优化的必要性,并提出剔除非关联子空间RNASAUBSC方法。该方法分析了非关联子空间的两种来源,并针对这两种不同来源的非关联子空间给出对应的优化方法。
第7章:总结与展望,总结本书的研究成果,指出进一步的研究方向。
本书结构及各章内容间的关系,如图1-1所示。
图1-1 本书结构图