3.1 二元数据与二元分类_深度学习初学者指南-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

在本节中，我们将集中精力考察作为二元目标（标签）输出的相关输入和输出数据的准备工作。当然，这里所谓的二元，指的是可以表示为0或1的值。请注意表示为上的重音。原因是列包含的数据可能不一定是0或者是1，但可以将它们解释为0或1，或者使用0或1进行表示。

请思考下列数据集的片段：

在这个只有四行的数据集简短示例中，列x₁的值显然是二元的，要么是0，要么是1。然而，乍一看，可能不是二元的，但如果你仔细观察，就会发现那一列中的值只有5或7。这就意味着可以将该数据正确且唯一地映射到两个值中的一个。因此，我们可以将5映射为0，将7映射为1，或者反过来，但这并不重要。

在目标（标签）值y中也可以观察到类似的现象，也可以将它们唯一地映射到两个值中的一个。我们可以通过把b赋值给0，a赋值给1来实现这样的映射。

如果打算将字符串映射到二元表示，那么一定要检查你的特定模型可以处理哪种类型的数据。例如，在一些支持向量机的模型实现中，目标（标签）的取值是-1和1。虽然这仍然是二元的，但属于不同的集合。在决定使用哪种映射之前，一定要反复检查。

在下一小节中，我们将使用特定的数据集作为研究案例，专门处理面向二元目标输出的数据集。