数据科学与机器学习:数学与统计方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5.3 双变量的数据可视化

本节将介绍一些有用的视觉辅助工具,以探索两个特征之间的关系。图形表示方式将取决于这两个特征的类型。

1.两个类别变量的图

两个类别变量的对比条形图需要在图中引入子图。图1.5是1.3节中列联表的可视化图形,此图交叉显示老年人家庭状况与性别。这里只是在同一个图形中显示两个相邻的条形图。

图1.5 两个类别变量的条形图

该图是使用seaborn软件包制作的,seaborn是专为简化统计可视化任务设计的。

2.两个定量变量的图

我们可以使用散点图将两个定量特征之间的模式可视化。这可以用plt.scatter命令实现。下面的代码可生成nutri数据中weight相对height的散点图,如图1.6所示。

图1.6 weight(体重)相对height(身高)的散点图

下面的Python代码演示了怎样绘制高度复杂的散点图,如图1.7所示。图中显示了婴儿出生体重与母亲抽烟(三角形)或母亲不抽烟(圆圈)的关系。另外,对两组数据进行直线拟合,结果表明:母亲抽烟时,婴儿出生体重随母亲年龄的增加而下降;母亲不抽烟时,婴儿出生体重随母亲年龄的增加而增加!问题是这些趋势是有统计学意义,还是纯属偶然。我们将在本书后面重新讨论这个数据集。

图1.7 婴儿出生体重与抽烟或不抽烟母亲的年龄关系

3.定性变量和定量变量的图

在这种情况下,针对每个分类特征绘制定量特征的箱形图很有意思。假设变量结构正确,使用以下代码中的plt.boxplot函数可以生成图1.8:

图1.8 将定量特征coffee(每天咖啡消耗量)看作分类特征gender(性别)的函数,绘制箱形图。注意,我们这次使用了“缺口”样式的箱形图