Python大数据分析算法与实例
上QQ阅读APP看书,第一时间看更新

2.2.1 数据相关关系

数据相关关系是指两个或两个以上变量取值之间在某种意义下存在的规律,其目的在于探寻数据集里所隐藏的相关关系网。从统计学角度看,变量之间的关系大体可分两种类型:函数关系和相关关系。一般情况下,数据很难满足严格的函数关系,而相关关系要求宽松,所以被人们广泛接受。需要进一步说明的是,研究变量之间的相关关系主要从两个方向进行:一个是相关分析,即通过引入一定的统计指标量化变量之间的相关程度;另一个是回归分析,回归分析不仅刻画相关关系,更重要的是刻画因果关系。

1.相关系数

对于不同测量尺度的变数,有不同的相关系数可用:

(1)Pearson相关系数(Pearson Correlation Coefficient):衡量两个等距尺度或等比尺度变数的相关性,是最常见的,也是学习统计学时第一个接触的相关系数。

(2)净相关(Partial Correlation):在模型中有多个自变数(或解释变数)时,去除掉其他自变数的影响,只衡量特定一个自变数与因变数之间的相关性。自变数和因变数皆为连续变数。

(3)相关比(Correlation Ratio):衡量两个连续变数的相关性。

(4)Gamma相关系数:衡量两个次序尺度变数的相关性。

(5)Spearman等级相关系数:衡量两个次序尺度变数的相关性。

(6)Kendall等级相关系数(Kendall Tau Rank Correlation Coefficient):衡量两个人为次序尺度变数(原始资料为等距尺度)的相关性。

(7)Kendall和谐系数:衡量两个次序尺度变数的相关性。

(8)Phi相关系数(Phi Coefficient):衡量两个真正名目尺度的二分变数的相关性。

(9)列联相关系数(Contingency Coefficient):衡量两个真正名目尺度变数的相关性。

(10)四分相关(Tetrachoric Correlation):衡量两个人为名目尺度(原始资料为等距尺度)的二分变数的相关性。

(11)Kappa一致性系数(K Coefficient of Agreement):衡量两个名目尺度变数的相关性。

(12)点二系列相关系数(Point-Biserial Correlation Coefficient):X变数是真正名目尺度二分变数。Y变数是连续变数。

(13)二系列相关系数(Biserial Correlation Coefficient):X变数是人为名目尺度二分变数。Y变数是连续变数。

2.数据种类

(1)高维数据的相关分析

在探索随机向量间相关性度量的研究中,随机向量的高维特征导致巨大的矩阵计算量,这成为高维数据相关分析中的关键困难问题。面临高维特征空间的相关分析时,数据可能呈现块分布现象,如医疗数据仓库、电子商务推荐系统。探测高维特征空间中是否存在数据的块分布现象,并发现各数据块对应的特征子空间,从本质上来看,这是基于相关关系度量的特征子空间发现问题。结合子空间聚类技术发现相关特征子空间,并以此为基础探索新的分块矩阵计算方法,有望为高维数据相关分析与处理提供有效的求解途径。然而,面临的挑战在于:①如果数据维度很高、数据表示非常稀疏,如何保证相关关系度量的有效性?②分块矩阵的计算可以有效提升计算效率,但是,如何对分块矩阵的计算结果进行融合?

(2)多变量数据的相关分析

在现实的大数据相关分析中,往往面临多变量的情况。显然,发展多变量非线性相关关系的度量方法是我们面临的一个重要的挑战。

(3)大规模数据的相关分析

大数据时代,相关分析面向的是数据集的整体,因此高效地开展相关分析与处理仍然非常困难。为了快速计算大数据的相关性,需要探索数据集整体的拆分与融合策略。显然,在这种“分而治之”的策略中,如何有效保持整体的相关性是大规模数据相关分析中必须解决的关键问题。有关学者给出了一种可行的拆分与融合策略,指出随机拆分策略是可能的解决路径。当然,在设计拆分与融合策略时,如何确定样本子集规模、如何保持子集之间的信息传递、如何设计各子集结果的融合原理等都是具有挑战性的问题。

(4)增长性数据的相关分析

在大数据中,数据呈现快速增长的特征。更为重要的是,诸如电商精准推荐等典型增长性数据相关分析任务迫切需要高效的在线相关分析技术。就增长性数据而言,可表现为样本规模的增长、维数规模的增长以及数据取值的动态更新。显然,对增长性数据相关分析而言,特别是对在线相关分析任务而言,每次对数据整体进行重新计算对于用户都是难以接受的,更难以满足用户的实时性需求。

我们认为,无论何种类型的数据增长,往往与原始数据集存在某种的关联模式,利用已有的关联模式设计具有递推关系的批增量算法是一种行之有效的计算策略。那么,面向大数据的相关分析任务,探测增长性数据与原始数据集的关联模式,进而发展具有递推关系的高效批增量算法,可为增长性数据相关分析尤其是在线相关分析提供有效的技术手段。

3.相关关系的种类

现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形态也不同。相关关系大体分为以下几种:

(1)正相关与负相关

按相关关系的方向可分为正相关和负相关。当两个因素(或变量)的变动方向相同时,即自变量x的值增大(或减小),因变量y的值也相应地增大(或减小),这样的关系就是正相关。例如家庭消费支出随收入的增加而增加就属于正相关。如果两个因素(或变量)变动的方向相反,即自变量x的值增大(或减小),因变量y的值随之减小(或增大),就称为负相关。例如商品流通费用率随商品经营的规模增大而逐渐减小就属于负相关。

(2)单相关与复相关

按自变量的多少可分为单相关和复相关。单相关是指两个变量之间的相关关系,即所研究的问题只涉及一个自变量和一个因变量,如职工的生活水平与工资之间的关系就是单相关。复相关是指3个或3个以上变量之间的相关关系,即所研究的问题涉及若干个自变量与一个因变量,如同时研究成本、市场供求状况、消费倾向对利润的影响时,这几个因素之间的关系就是复相关。

(3)线性相关与非线性相关

按相关关系的表现形态可分为线性相关与非线性相关。线性相关是指在两个变量之间,当自变量x的值发生变动时,因变量y的值发生大致均等的变动,在相关图的分布上,近似地表现为直线形式。比如,商品销售额与销售量即为线性相关。非线性相关是指在两个变量之间,当自变量x的值发生变动时,因变量y的值发生不均等的变动,在相关图的分布上,表现为抛物线、双曲线、指数曲线等非直线形式。比如,从人的生命全过程来看,年龄与医疗费支出呈非线性相关。

(4)完全相关、不完全相关与不相关

按相关程度可分为完全相关、不完全相关和不相关。完全相关是指两个变量之间具有完全确定的关系,即因变量y的值完全随自变量x的值的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这时相关关系就转化为函数关系。不相关是指两个变量之间不存在相关关系,即两个变量的变动彼此互不影响。自变量x的值变动时,因变量y的值不随之做相应变动。比如,家庭收入多少与孩子多少之间不存在相关关系。不完全相关是介于完全相关和不相关之间的一种相关关系。比如,农作物产量与播种面积之间的关系。不完全相关关系是统计研究的主要对象。