数据科学与机器学习:数学与统计方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 汇总表

通常情况下,将大型电子表格以更简洁的形式进行汇总是很有用的。计数表或频率表可以让我们更轻松地了解变量的基本分布,特别是对于定性数据。这种表格可以使用describevalue_counts方法获得。

作为第一个例子,我们将加载DataFrame对象nutri——1.2节对nutri进行了重构并保存为'nutri.csv',然后对'fat'特征(列)进行汇总。

我们看到,烹调用油有8种,葵花籽油的食用频率最高,226人中有68人使用葵花籽油。value_counts方法给出了不同类型烹调用油的计数结果。

列标签也是DataFrame的属性,例如,nutri.fatnutri['fat']返回的对象完全相同。

也可以使用crosstab方法对两个或多个变量进行交叉汇总,给出一个列联表(contingency table):

我们从老年人营养数据集中看到,单身男性的比例远远小于单身女性的比例。设置参数margins=True,可以在表格中添加汇总的行和列。