前言
随着信息、互联网、社交媒体、卫星定位、LBS等技术的发展,大数据已经成为一种新的生产要素,在生产、经营、流通、金融、生物医药、城市管理、安全防护等领域展现出重要价值。在上述背景下,轨迹数据领域也进入了大数据时代。轨迹数据分析是融合计算机科学、地理信息学、数据挖掘、人工智能、图形图像、社会学等多学科的研究领域,其目标是通过分析数据中移动对象的时空特征和移动行为信息发现新知识和模式,帮助人们理解移动对象的活动和迁移规律。在轨迹大数据的背景下,人们对轨迹数据分析的关注度持续攀升。目前,轨迹数据分析的相关技术及成果已被广泛应用于智慧城市计算与服务、交通管理与规划、物流管理、智能制造、旅游路径推荐、自然灾害预测与预警、疫情传播监测等诸多领域,对经济发展、社会进步、国家治理、人民生活都产生了重大影响。然而,随着轨迹大数据时代的不断深入,数据体现出海量、低密度、低质量、复杂性等特征,使得现有方法在轨迹大数据分析与挖掘中遇到了诸多挑战。针对上述特征,结合轨迹大数据分析的相关需求,提出有效的分析与挖掘方法,获取海量轨迹数据背后蕴含的丰富信息,既有巨大的理论研究价值,又有紧迫的现实需求。
近年来,笔者一直从事数据挖掘及应用的相关研究,针对大数据背景下轨迹数据特征及现有轨迹数据分析技术的问题与不足,结合数据挖掘的技术优势,开展了一系列的研究工作。本书是近年来相关研究成果的总结。全书一共分为6章,第1章主要介绍了轨迹数据及轨迹数据分析与挖掘的基本理论。除第1章外,其他章的编排如下。
第2章为基于影响空间的噪声检测方法。这一部分针对影响数据质量的噪声问题开展研究,提出了一种基于影响空间的噪声检测方法——NOIS。该方法利用影响空间理论,系统分析和论证了不同数据点的分布特性,并利用上述分布特性对数据集中噪声点存在的可能性进行评估和检测,最后在上述理论的基础上设计并实现了NOIS噪声检测算法。
第3章为基于影响空间的噪声不敏感特征提取框架。这一部分在第2章噪声检测的基础上,针对数据特征提取方法开展深入研究,提出了一个影响空间下的噪声不敏感特征提取框架——ARIS。该框架包含两个模型。第一个模型通过分析噪声在影响空间下的特征来识别和去除噪声;第二个模型利用影响空间下的数据分布将数据集划分为多个微簇,然后通过获取微簇中心来实现特征提取。ARIS特征提取框架一方面解决噪声干扰,提高数据质量;另一方面可以为下游任务抽取更可靠的特征,增加数据分析和处理的可靠性和效率。
第4章为散度距离及其无参密度聚类方法。这一部分针对大数据背景下,欧氏距离处理高维数据效果不理想及参数依赖等人为因素难以适应大数据分析需求的问题,提出了散度距离及其无参密度聚类方法——NAPC算法。该方法首先在传统欧氏距离的基础上定义了散度距离,以提升高维数据的相似性度量效果;然后,以DPC算法为框架,引入了Adjusted Boxplot理论,用于解决参数依赖并降低在中心点选择中人为因素的影响。
第5章为基于时空密度分析的轨迹聚类算法。这一部分针对大数据背景下复杂轨迹时空密度分析及噪声处理问题开展深入研究,提出了一种基于时空密度分析的轨迹聚类算法——TAD。TAD算法通过两个新的度量——时空密度函数(NMAST)和噪声容忍因子(NTF),描述复杂轨迹的运动特征,以提升轨迹的聚类精度,尤其适合处理各种复杂或特殊的具有长时隙(时间间隔)的轨迹,其聚类结果可以为后续对轨迹数据的深入研究打下基础。
第6章为轨迹数据分析方法的应用。本章重点以天体光谱及智能制造为背景,介绍了轨迹数据分析方法在天光背景数据分析、低信噪比光谱分析及旋转机械故障诊断任务中的应用。首先分析了不同任务中数据的分析和处理需求,然后根据不同任务需求开展噪声处理、特征提取、时空密度分析及聚类等相关工作,最后对不同任务的分析和处理结果进行了详细分析和讨论。
本书的完成得到了太原科技大学人工智能实验室、计算机科学与技术学院各位老师的大力支持,特别是蔡江辉教授、杨海峰教授、张继福教授、赵旭俊教授为本书提供了很多宝贵的建议,在此一并致以诚挚的谢意。
本书所涉及的部分研究工作得到了国家自然科学基金(项目编号为U1931209)、山西省重点研发项目(项目编号为201803D121059)、大数据分析与并行计算山西省重点实验室开放课题(项目编号为BDPC-23-005)、山西省青年基金项目(项目编号为202303021212223)和太原科技大学博士启动基金(项目编号为20222119)的资助,在此向有关机构表示衷心的感谢。
由于本书作者水平有限,书中难免有不妥之处,欢迎各位专家和广大读者批评指正。