1.4 分类变量和定序变量的基本操作
1.4.1 分类变量和定序变量概述
在很多情况下,我们会用到分类变量(虚拟变量)的概念,分类变量(虚拟变量)的用途是通过定义值的方式将观测样本进行分类。例如,根据数据某一变量特征的不同把观测样本分为3类,就需要建立3个分类变量A、B、C,如果观测样本属于A类,其对应的分类变量A的值就为1,对应的分类变量B和C的值就为0。定序变量的用途是根据数据的数值大小将数据分到几个确定的区间,其在广义上也是一种分类。下面我们就用实例的方式来讲解一下分类变量和定序变量的基本操作。
1.4.2 相关数据来源
【例1.3】某国际知名足球裁判自执法以来在各地区的执赛信息如表1.5所示。试使用Stata 14.0对数据进行以下操作:(1)试生成新的分类变量来描述比赛级别;(2)试生成新的定序变量对场数进行定序,分到3个标志区间。
表1.5 某国际知名足球裁判执赛情况
1.4.3 Stata分析过程
在用Stata进行分析之前,我们要把数据录入到Stata中。本例中有3个变量,分别是地点、场数以及比赛级别。我们把地点变量设定为place,把场数变量设定为number,把比赛级别变量设定为type,变量类型及长度采取系统默认方式,然后录入相关数据。相关操作我们在1.2节中已有详细讲述。录入完成后数据如图1.14所示。
图1.14 案例1.3数据
先做一下数据保存,然后开始展开分析,步骤如下:
进入Stata 14.0,打开相关数据文件,弹出如图1.15所示的主界面。
图1.15 主界面
在主界面的“Command”文本框中输入操作命令并按键盘上的回车键进行确认。
●tabulate type,generate(type):本命令的含义是生成新的分类变量来描述比赛级别。
●generate number1=autocode(number,3,1,25):本命令的含义是生成新的定序变量对场数进行定序,分到3个标志区间。
设置完毕后,按键盘上的回车键,等待输出结果。
1.4.4 结果分析
图1.16是生成新的分类变量来描述比赛级别的结果。
图1.16 描述比赛级别的结果
选择“Data”|“Data Editor”|“Data Editor(Browse)”命令,进入数据查看界面,可以看到如图1.17所示的生成的分类数据“type1”和“type2”。
图1.17 生成新的分类变量
选择“Data”|“Data Editor”|“Data Editor(Browse)”命令,进入数据查看界面,可以看到如图1.18所示的生成的变量“number1”数据。该变量将“number”的取值区间划分成等宽的3组。图1.18是生成新的定序变量对场数进行定序,分到3个标志区间的结果。
图1.18 对场数进行定序
1.4.5 案例延伸
以本节中的案例为基础,试生成新的分类变量按数值大小对场数进行4类定序。
操作命令应该为:
sort number generate number2=group(4)
在命令窗口输入命令并按回车键进行确认,选择“Data”|“Data Editor”|“Data Editor(Browse)”命令,进入数据查看界面,可以看到如图1.19所示的生成的变量“number2”数据。该变量将“number”的取值按大小分成了4个序列。
图1.19 对场数进行4类定序