1.2 时空数据挖掘
数据挖掘是我们耳熟能详的概念,顾名思义,时空数据挖掘是针对时空数据的数据挖掘。大约从2006年以来,“时空”(Spatial-Temporal)一词一直是学术界和工业界所津津乐道的“时髦”术语,某种程度上成为“前沿”“交叉”和“复杂”等的代名词之一,在理论研究和生产实践中受到了人们的高度重视。
时空数据中蕴含着大量非常有应用价值的信息和知识,对其进行数据挖掘具有非常重要的实践意义。当前,时空数据挖掘已经在诸多领域得到了有效应用,例如,移动电子商务、土地利用分类及地域范围预测、全球气候变化监控、犯罪易发点发现、交通管理与控制、共享车辆实时调度、疾病监控、水资源管理、自然灾害预警、公共卫生与医疗健康等。
依据刘大有等人[1]对时空数据挖掘任务的分类,大致可以分为以下几个方面。
(1)时空模式挖掘:包括周期模式、频繁模式、关联模式等。
(2)时空聚类:基于模型的聚类、基于距离的聚类、基于密度的聚类等。
(3)时空异常检测:基于距离、密度、聚类、模式、规则等的异常检测。
(4)时空预测及分类:位置和轨迹预测、密度和事件预测、结合空间相关性的时间序列预测(Spatial Combined Time Series Prediction)、时空信息组合分类等。
本书所阐述的对象即专门针对道路交通数据的“结合空间相关性的时间序列预测”问题,为了叙述方便,本书将该问题重新命名为道路短期交通状态时空序列预测问题。“短期”(Short-Term)预测与“长期”预测相对,在道路交通领域,短期预测主要服务于控制、诱导等交通管控实践,而长期预测更主要是服务于交通规划等。由这个定义可以看出,本书所讨论的时空预测问题的数据来源于道路交通领域,而非航空、水运等其他交通领域。当然,数据来源的不同,虽然在一定程度上决定了研究方法的特殊性,但不会影响时空预测研究的一般性和通用性,这也就决定了尽管本书针对的是道路交通状态时空序列预测问题,但相应的方法论同样可以在适当修改的情况下,迁移到其他领域的时空数据之上。