![矩阵力量:线性代数全彩图解+微课+Python编程](https://wfqqreader-1252317822.image.myqcloud.com/cover/642/52842642/b_52842642.jpg)
1.3 有向量的地方,就有几何
数据云、投影
取出鸢尾花前两个特征,即花萼长度和花萼宽度所对应的数据,把它们以坐标的形式画在平面直角坐标系(记做)中,我们便得到平面散点图。如图1.6所示。这幅散点图好比样本“数据云”。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P28_1213685.jpg?sign=1739680562-0g6AlNgMXGVEkX763uqCGrWrBg5vWUPu-0-2dc0f08589ad70bfa0cd6176a49f28c9)
图1.6 鸢尾花前两个特征数据散点图
图1.6中数据点(5.0, 2.0)可以写成行向量[5.0, 2.0]。(5.0, 2.0)是序号为61的样本点,对应的行向量可以写成x(61)。
从几何视角来看,[5.0, 2.0]在横轴的正交投影(orthogonal projection)结果为5.0,代表该点的横坐标为5.0。[5.0, 2.0]在纵轴的正交投影结果为2.0,代表其纵坐标为2.0。
正交(orthogonality)是线性代数的概念,是垂直的推广。正交投影很好理解,即原数据点和投影点连线垂直于投影点所在直线或平面。打个比方,头顶正上方阳光将物体的影子投影在地面,而阳光光线垂直于地面。如无特别强调,本书的投影均指正交投影。
从集合视角来看,(5.0, 2.0)属于平面,即(5.0, 2.0)∈
。图1.6中整团数据云都属于
。再者,如图1.6所示,从向量角度来看,行向量[5.0, 2.0]在横轴上投影的向量为[5.0, 0],在纵轴上投影的向量为[0, 2.0]。而[5.0, 0]和[0, 2.0]两个向量合成就是[5.0, 2.0]=[5.0, 0]+[0, 2.0]。
再进一步,将图1.6整团数据云全部正交投影到横轴,得到图1.7。图1.7中×代表的数据实际上就是鸢尾花数据集第一列的花萼长度数据。图1.7中的横轴相当于一个一维空间,即数轴。
我们也可以把整团数据云全部投影在纵轴,得到图1.8。图中的×是鸢尾花数据第二列的花萼宽度数据。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P29_1215713.jpg?sign=1739680562-nesz7HYORIhOg4h5tMgTYdnKjqdRb5xH-0-c05c4cbfd10a312905d1a1dc0ea739cc)
图1.7 二维散点正交投影到横轴
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P29_1215714.jpg?sign=1739680562-lXjFl6K7wJrztSkpi61RKeY9jQ6AQ8HD-0-f37409c3f879dc9b238bb1e54782ac9f)
图1.8 二维散点正交投影到纵轴
投影到一条过原点的斜线
你可能会问,是否可以将图1.7中所有点投影在一条斜线上?
答案是肯定的。
如图1.9所示,鸢尾花数据投影到一条斜线上,这条斜线通过原点,与横轴夹角为15°。观察图1.9,我们已经发现投影点似乎是x1与x2的某种组合。也就是说,x1和x2分别贡献v1x1和v2x2,两种成分的合成v1x1+v2x2就是投影点坐标。v1x1+v2x2也叫线性组合(linear combination)。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P30_1218193.jpg?sign=1739680562-Eu7wxJol7girhC4srNTtJuNekXIwXC7n-0-306058643971f9c398a4f33687391f8c)
图1.9 二维散点正交投影到一条斜线
大家可能会问,怎么计算图1.9中的投影点坐标呢?这种几何变换有何用途?这是本书第9、10章要探究的问题。
三维散点图、成对特征散点图
取出鸢尾花前三个特征(花萼长度、花萼宽度、花瓣长度)对应的数据,并在三维空间绘制散点图,得到图1.10所示的散点图。而图1.6相当于图1.10在水平面(浅蓝色背景)的正交投影结果。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P30_1218194.jpg?sign=1739680562-och4bGBxdgZlHjQcycq23r8ZR2UfhA2x-0-09a4741daa79ee2a5cfb384308b87d36)
图1.10 鸢尾花前三个特征数据散点图
回顾鸢尾花书《数学要素》一册介绍过的成对特征散点图,具体如图1.11所示。成对特征散点图不仅可视化鸢尾花的四个特征(花萼长度、花萼宽度、花瓣长度和花瓣宽度),而且通过散点颜色还可以展示鸢尾花的三个类别(山鸢尾、变色鸢尾、弗吉尼亚鸢尾)。图1.11中的每一幅散点图相当于四维空间数据在不同平面上的投影结果。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P31_1219182.jpg?sign=1739680562-oqZqowqkGoASll7i212JKbTRDuaO0Vyz-0-a5a3a89b99440f9111dddd9f707f29fd)
图1.11 鸢尾花数据成对特征散点图(考虑分类标签,图片来自鸢尾花书《数学要素》一册)
统计视角:移动向量起点
如图1.12所示,本节前文行向量的起点都是原点,即零向量0。而平面这个二维空间则“装下”了这150个行向量。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P31_1219183.jpg?sign=1739680562-Ghl4zwxtKUTTLIXcoceNEh3GZTl6fYqP-0-e24b3c8a49c6e1659078b22933ceafd1)
图1.12 向量起点为原点
但是,统计视角下,向量的起点移动到了数据质心(centroid)。所谓数据质心就是数据每一特征均值构成的向量。
这一点也不难理解,大家回想一下,我们在计算方差、均方差、协方差、相关性系数等统计度量时,都会去均值。从向量角度来看,这相当于移动了向量起点。
如图1.13所示,将向量的起点移动到质心后,向量的长度、绝对角度(如与坐标系横轴夹角)、相对角度(向量两两之间的夹角)都发生了显著变化。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P32_1220118.jpg?sign=1739680562-QMrGGzWoLg0qIDr8fdto9YyfbLn3qVEo-0-151e6ea5260a0397f9fd8deab1f09180)
图1.13 向量起点为质心
将图1.13整团数据云质心平移到原点,这个过程就是去均值过程,结果如图1.14所示。数据矩阵X去均值化得到的数据矩阵记做Xc,显然Xc的质心位于原点(0,0)。去均值并不影响数据的单位,图1.14横轴、纵轴的单位都是厘米。
![](https://epubservercos.yuewen.com/C88560/31398492103476706/epubprivate/OEBPS/Images/Figure-P32_1220120.jpg?sign=1739680562-Q044j7nChdqKNLshaD2GIZ2JpyEyI3MO-0-2c4863a2b4b31bcf5508886d7a0f7229)
图1.14 数据去均值化
观察图1.11,我们发现,如果考虑数据标签的话,每一类标签样本数据都有自己质心,叫做分类质心,这是本书第22章要讨论的话题。此外,本书最后三章的“数据三部曲”会把数据、矩阵、向量、矩阵分解、空间、优化、统计等板块联结起来。