深度学习初学者指南
上QQ阅读APP看书,第一时间看更新

3.2 分类数据与多个类别

既然已经知道如何针对不同的目的实现对数据的二值化,那么我们可以研究其他类型的数据,比如分类数据或多标签数据,以及如何将它们变为数字型数据。事实上,大多数先进的深度学习算法只接受数字型数据。这只是一个可以在以后得到轻松解决的设计问题,也不是什么大问题,因为有一些简单的方法可以将分类数据转换为有意义的数字表示形式。

分类数据以不同的类型属性嵌入信息。这些类型属性可以用数字或字符串表示。例如,数据集有一个名为country的列,其中的项包括“印度”“墨西哥”“法国”和“美国”。或者是具有邮政编码(如12601、85621和73315)的数据集。前者为非数值型数据,后者为数值型数据。国家名称需要转换成数字才能使用,但是邮政编码已经是数字了,仅仅作为数字并没有意义。从机器学习的角度来看,如果将邮政编码转换为经纬度坐标,它们将更有意义,这将比使用普通数字更容易捕捉彼此比较接近的位置。

首先,我们将处理将字符串类型属性转换为普通数字的问题,然后将它们转换为一种名为“独热编码”格式的数字形式。