从机器学习到无人驾驶
上QQ阅读APP看书,第一时间看更新

3.1 什么是线性回归

本节主要介绍线性回归的概念、历史与模型。

3.1.1 线性回归的概念

线性回归从词法构成来说包括“线性”和“回归”两部分内容。“线性”是指线性关系,对于最简化的场景而言,两个变量之间存在一次方函数关系,就称它们之间存在线性关系。通俗一点讲,如果把这两个变量分别作为点的横坐标与纵坐标,其图像是平面上的一条直线,则这两个变量之间的关系就是线性关系。即如果可以用一个二元一次方程来表达两个变量之间的关系,这两个变量之间的关系就称为线性关系,因而,二元一次方程也称为线性方程。推而广之,含有n个变量的一次方程也称为n元线性方程,不过这已经与直线没有什么关系了。因此,我们需要使用向量来表述这种一般性的线性关系。给定向量组A:α1,α2,…,αn,以及向量b,若存在一组数k1,k2,…,kn,使得b= k1α1+ k2α2+…+ knαn,则称向量b可由向量组A线性表示,也称向量b是向量组A的一个线性组合,k1,k2,…,kn称为这个线性组合的系数。

3.1.2 线性回归的历史

线性回归中的“回归”实际是一个颇具争议的名称,这个名称的提出者是高尔顿(Frramcia Galton,1882-1911年)。高尔顿早年在剑桥大学学习医学,但医生的职业对他并无吸引力,后来他接受了一笔遗产,这使他可以放弃医生的生涯,并于1850-1852年期间去非洲考察,他所取得的成就使其在1853年获得了英国皇家地理学会的金质奖章。此后,他研究过多种学科(气象学、心理学、社会学、教育学和指纹学等),在1865年后他的主要兴趣转向遗传学,这也许是受他表兄达尔文的影响。高尔顿开始思考父代和子代相似,如身高、性格及其他种种特质的相似性问题。于是他选择了父母平均身高X与其子身高Y的关系作为研究对象。他观察了1074对父母及每对父母的一个儿子,将结果描成散点图,发现趋势近乎一条直线。总的来说,父母平均身高X增加时,其子的身高Y也倾向于增加,这是意料中的结果。但有意思的是,高尔顿发现这1074对父母平均身高的平均值为68英寸(英国计量单位,1英寸=2.54cm)时,1074个儿子的平均身高为69英寸,比父母平均身高高1英寸。于是他推想:当父母平均身高为64英寸时,1074个儿子的平均身高应为64+1=65英寸;当父母的身高为72英寸时,他们儿子的平均身高应为72+1=73英寸,但观察结果与此不符。高尔顿发现前一种情况是儿子的平均身高为67英寸,高于父母平均值达3英寸,后者儿子的平均身高为71英寸,比父母的平均身高低1英寸。高尔顿研究后得出的解释是自然界有一种约束力,使人类身高在一定时期是相对稳定的。现代遗传学研究表明:基因遗传是决定身高的主要因素,表现为多基因遗传。若父母身高比较高(或矮),其子女比他们更高(矮),则人类身材将向高、矮两个极端分化。自然界不这样做,它让身高有一种回归到中心的作用。例如,父母平均身高72英寸,这超过了平均值68英寸,表明这些父母属于高的一类,其儿子也倾向于高的一类(其平均身高71英寸,大于子代的平均身高69英寸),但不像父母离子代那么远((71-69)<(72-68))。反之,父母平均身高64英寸,属于矮的一类,其儿子也倾向于矮的一类(其平均身高为67英寸,小于子代的平均身高69英寸),但不像父母离中心那么远((69 -67)<(68-64))。因此,身高有回归于中心的趋势,由于这个性质,高尔顿创立了“回归”并应用到问题的讨论中,这就是“回归”名称的由来。回归分析研究的是多个变量之间的关系。它是一种预测性的建模技术,研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析、时间序列模型以及发现变量之间的因果关系。

3.1.3 线性回归模型

线性回归比较严格的定义是数据集D,样本有n个属性进行描述,在数据集内输入数据(X)和标签(Y),对应的关系可以表示为(X1,X2,X3,…,Xn)~Y,我们试图找到或求得一种关系,这种关系是线性的,能够使输入X得到Y。换一种表述方法,就是我们会找到一组输入变量的系数,能够完成输入变量的线性方程。因此,线性(多元)回归可以表述为如下表达式:

在上面的算术表达式中,为了完成最终加和公式,我们进行了合理假设,输入变量的X0 = 1。在这里面临一个问题,X有多个要素,而数据集中理所当然含有多条数据,为了能够准确地把这样的二维数据结构描述清楚,我们需要引入向量运算。向量运算如下:

线性回归中的线性模型虽然比较简洁,但是是机器学习过程中一个非常好的起点,特别是线性模型非常直观地体现了模型本身的可解释性。例如,我们要来判断一个主播是不是女装大佬,可从声音、肤质和体型方面进行判断,如果最后得到的线性模型是,说明判断依据中的声音是决定性的。当然这种情况下,如果某个男士会假嗓,也会很容易骗过群众的耳朵。