上QQ阅读APP看书,第一时间看更新
3.1 二元数据与二元分类
在本节中,我们将集中精力考察作为二元目标(标签)输出的相关输入和输出数据的准备工作。当然,这里所谓的二元,指的是可以表示为0或1的值。请注意表示为上的重音。原因是列包含的数据可能不一定是0或者是1,但可以将它们解释为0或1,或者使用0或1进行表示。
请思考下列数据集的片段:
在这个只有四行的数据集简短示例中,列x1的值显然是二元的,要么是0,要么是1。然而,乍一看,可能不是二元的,但如果你仔细观察,就会发现那一列中的值只有5或7。这就意味着可以将该数据正确且唯一地映射到两个值中的一个。因此,我们可以将5映射为0,将7映射为1,或者反过来,但这并不重要。
在目标(标签)值y中也可以观察到类似的现象,也可以将它们唯一地映射到两个值中的一个。我们可以通过把b赋值给0,a赋值给1来实现这样的映射。
如果打算将字符串映射到二元表示,那么一定要检查你的特定模型可以处理哪种类型的数据。例如,在一些支持向量机的模型实现中,目标(标签)的取值是-1和1。虽然这仍然是二元的,但属于不同的集合。在决定使用哪种映射之前,一定要反复检查。
在下一小节中,我们将使用特定的数据集作为研究案例,专门处理面向二元目标输出的数据集。