3.4 分类变量编码_SQL机器学习库MADlib技术解析-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

3.4 分类变量编码

1. 背景知识

在统计学中，分类变量是指具有有限的、通常是固定数量值的变量，其变量值是定性的，表现为互不相容的类别或属性。若按每个分类变量值分组，则每个被观察的数据点或记录属于某一特定组。在计算机科学和一些数学分支中，分类变量被称为枚举类型。有时将分类变量的每一个可能值称为级别，与随机分类变量相关的概率分布称为分类分布。

回归分析时需要特别注意分类变量。与双值或连续变量不同，分类变量不能直接代入回归方程。例如，假设有一个名为race的变量，其编码为1=Hispanic、2=Asian、3=Black、4=White，那么在回归中直接代入race变量的数字值，将会得出线性效果，但这并不是分类本来的意义。因此，像这样的分类变量需要被编码成一系列指示变量，然后就可以将指示值输入到回归模型中。从数据库的角度来看，所谓分类变量编码，简单说就是为分类列的每个值创建一个新的分类编码列，然后将数据的类别指示值（通常就是0或1）赋给各个分类编码列。有多种编码系统用于分类编码，常见的包括one-hot、dummy、effects、orthogonal和Helmert等。MADlib当前支持one-hot和dummy编码技术。

•当需要用一组特定的预测变量与其他预测变量组做比较时，通常使用哑编码（dummy coding），与之比较的变量组称为参照组。

•one-hot编码与哑编码类似，两者的区别是前者为每种分类值建立数字类型的0/1指示列。在每行数据中（对应一个数据点）只有一个分类编码列的值可以为1。one-hot编码中没有参考类别。

2. 函数语法

3. 参数说明

encode_categorical_variables函数的参数说明如表3-6所示。

表3-6 encode_categorical_variables函数参数说明

（续表）

4. 示例

（1）使用鲍鱼数据集的子集。

鲍鱼数据集（Abalone Dataset，参见https://archive.ics.uci.edu/ml/datasets/Abalone）是一个机器学习应用标准数据集，涉及根据鲍鱼个体的测量数据来预测鲍鱼的年龄（环的数量）。这是一个多分类（multi-class classification）问题，但也可以抽象为回归问题。该数据集有4177个观察值、8个输入变量和1个输出变量，每个类的观察值数量不均等。变量名包括性别（M, F, I）、长度、直径、高度、总重量、剥壳重量、内脏重量、壳重、环的数量。

drop table if exists abalone;
create table abalone (
    id serial,
    sex character varying,
    length double precision,
    diameter double precision,
    height double precision,
    rings int
);
insert into abalone (sex, length, diameter, height, rings) values
('m',    0.455,  0.365,  0.095,  15), ('m',    0.35,   0.265,  0.09,   7),
('f',    0.53,   0.42,   0.135,  9), ('m',    0.44,   0.365,  0.125,  10),
('i',    0.33,   0.255,  0.08,   7), ('i',    0.425,  0.3,    0.095,  8),
('f',    0.53,   0.415,  0.15,   20), ('f',    0.545,  0.425,  0.125,  16),
('m',  0.475,  0.37,   0.125,  9), (null,  0.55,   0.44,   0.15,   19),
('f',  0.525,  0.38,   0.14,   14), ('m',   0.43,   0.35,   0.11,   10),
('m',  0.49,   0.38,   0.135,  11), ('f',   0.535,  0.405,  0.145,  10),
('f',  0.47,   0.355,  0.1,    10), ('m',   0.5,    0.4,    0.13,   12),
('i',  0.355,  0.28,   0.085,  7), ('f',   0.44,   0.34,   0.1,    10),
('m',  0.365,  0.295,  0.08,   7), (null,  0.45,   0.32,   0.1,    9);

（2）使用one-hot编码创建新表，通过对‘sex’列编码，替换‘f’‘m’和‘i’三个值，默认不对NULL编码。

结果：

（3）包含NULL值的one-hot编码，注意新增的‘sex_NULL’列。

结果：

（4）对源表中的所有列编码，并且指定‘id’列作为主键列，使得输出表中只包含主键和分类编码列。

结果：

源表有id、sex、length、diameter、height、rings六列，由于指定了id列为索引列，因此id列不被编码；length、diameter、height这三列是double precision类型，而编码只针对布尔、整数和文本数据类型，因此这三列也不被编码，对剩下的sex列的3个值、rings列的11个值进行编码，结果表共有包含id在内的15列。

（5）只对top n的分类值编码，把其他值分组到另一个杂项列中。top值或针对所有编码列，或按列指定。作为后者的一个例子，这里对‘sex’的值指定top 2、对‘rings’的值指定top 50%。