机器学习模型的质量好坏与训练所用的数据密切相关。好的训练数据的一个关键特性是以一种针对学习和归纳进行优化的方式提供的。在业内,这种将数据一起置入优化格式的过程称为数据转换。本章介绍MADlib的主要数据转换相关模块,包括邻近度、矩阵分解、透视表和分类变量编码。