上QQ阅读APP看书,第一时间看更新
3.6.3 关于维度的数量
缩减数据规模并不总是必要的步骤。但是对于高度相关的数据,例如图像数据,我们强烈推荐使用缩减数据规模技术。
这里所讨论的降维技术实际上都是为了去除数据中的冗余信息,保留数据中重要的信息内容。如果我们要求一种算法将不相关、不冗余的数据集从13维降至2维,这听起来有点冒险,也许降到8维或者9维是更好的选择。
没有一个认真的机器学习者会尝试将一个非相关、非冗余的784维数据集减少到只有2维。即使数据是高度相关和冗余的,如MNIST数据集,要求将其从784维下降到2维也是一个很大的变化跨度。这是一个非常危险的决定,可能会丢掉重要的、有区别的、相关的信息,也许降50维或100维是一个更好的选择。
没有一种通用的方法来确定哪种尺度是好的。这是一个需要实验的过程。如果想在这方面做得很好,那么你必须尽职尽责,至少尝试两个或更多不同维度的实验。