1.8 因果关系
在统计学中,我们可以利用两组数据(“两个变量”或“两个总体”),分析其因果关系或相关性。在两总体的平均数或比例检验中,其“因”是两总体的分类变量,譬如“性别”或“地区”;其“果”是平均数或比例的变量,譬如“成绩”或“候选人得票率”。所以,因果关系的假设检验是:同年龄的“男生和女生”的智商或成绩平均数,是否相等或有显著差异,即“性别”是否影响“智商或成绩”;还有,吸烟与健康是否有确定的因果关系;出生月份是否决定未来的职业、健康与命运。
1.8.1 泰坦尼克号因果
对分类数据进行分析的卡方检验,其“因”是两类以上的定类变量,其“果”也是定类变量,譬如:如表1.2所示,1912年泰坦尼克号撞上冰山而沉没,乘客和组员共2223人,死亡1517人,其中不同“性别”(因)的死亡率(果)是否有显著差异?不同“身份(旅客等级或组员)”(因)的“死亡率”(果),是否有显著差异?该问题在第5章条件概率与第14章分类数据分析回答。
表1.2 泰坦尼克号生死录
通常,第11~14章的原假设是“没有因果关系”,检验结果“拒绝原假设”表示有“显著差异”,所以“有显著差异”表示“有因果关系”。
回归分析就是分析两个变量的因果关系,检验自变量X(因)对因变量Y(果)的直线关系是否显著。例如:广告预算对销售额的增加是否显著,信息科技的支出对企业的获利绩效是否显著。
1.8.2 基于数据尺度和因果的统计学分类
不同数据尺度检验因果关系的统计方法也有不同。表1.3是从第11章开始到第15章,不同尺度之因果关系的统计方法。
表1.3 不同尺度之因果关系的统计方法
1.8.3 基于关系和因果的统计学分类
基于关系和因果的统计学分类,如图1.6所示:
图1.6 基于关系和因果的统计学分类
■ 无关系无因果:一个变量参数的统计估计或检验,一个事件的概率。
■ 有关系无因果:两个变量的相关系数,两事件为非互斥关系。
■ 有关系有因果:
· 以因求果:回归分析的预测有独立变量(因)和依赖变量(果),一个变量时间序列的自回归预测是前后期数据的因果关系。
· 以果求因:两总体检验、方差分析和分类数据分析。求因的假设是否显著。