数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。机器学习数据分析的目的其实就是直观地展现数据,例如让花费数小时甚至更久才能归纳的数据量转化成一眼就能读懂的指标;通过加减乘除、各类公式权衡计算得到两组数据的差异,在图中通过元素的颜色敏感、长短大小形成对比。
本章从机器学习的数据分布性、数据相关性、数据聚类性、数据成分、数据动态性及数据可视化等方面介绍了机器学习的数据特征。