1.2.1 机器学习_移动终端人工智能技术与应用开发-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2.1 机器学习

我们知道，人类的学习是根据过往的经验，对一类问题形成某种认识或总结出一定的规律，然后利用这些知识对新的问题进行判断的过程。机器学习的思想并不复杂，它是对这个人类学习过程的一个模拟。机器学习允许计算机查找隐藏的知识，而不需要明确地编写进行查找的程序，我们将数据提供给算法，并且程序执行的结果将成为处理新数据的重要依据。

机器学习领域的先驱Arthur Samuel在IBM Journal of Research and Development期刊上发表的一篇名为“Some Studies in Machine Learning Using the Game of Checkers”的论文中，将机器学习定义为“在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域”。简单地说，机器学习是通过找出数据里隐藏的模式进而做出预测的识别模式，机器学习用某些算法指导计算机利用已知数据得出适当的模型，并利用此模型对新的输入数据进行判断。计算机科学和应用数学界的学者总结出了很多教会计算机学习的办法，即各式各样的机器学习算法。机器学习算法的代表有：线性回归、分类与回归树（CART）、随机森林（Random Forest）、逻辑回归、朴素贝叶斯（Naive Bayesian）、k-近邻（k-Nearest Neighbors, kNN）、AdaBoost、K-均值算法（K-Means）、支持向量机（SVM）和人工神经网络（Artificial Neural Network, ANN）等。机器学习已经成为实现智能化的关键技术，是人工智能的一个重要子领域。目前89%的人工智能专利申请和40% 来源：德勤研究。人工智能范围内的相关专利均属于机器学习范畴。

一般来说，按照训练样本提供的信息以及反馈方式的不同，可以将机器学习分为监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）、半监督学习（Semi-Supervised Learning）和强化学习（Reinforcement Learning, RL）。

监督学习的特点是训练数据既有特征（feature）又有标签（label），通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。根据标签类型的不同，又可以将其分为分类问题和回归问题两类。前者是预测某一样东西所属的类别（离散的），比如给定一个人的身高、年龄、体重等信息，然后判断其性别、是否健康等；后者则是预测某一样本所对应的实数输出（连续的），比如预测某一地区的人的平均身高。目前大部分应用的模型都属于监督学习类型，包括线性分类器、支持向量机等。常见的监督学习算法有k-近邻算法、决策树（Decision Tree）、朴素贝叶斯等。

无监督学习的特点是训练样本的标签信息未知，目标是通过对无标签训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础。无监督学习中数据集是完全没有标签的，依据相似样本在数据空间中一般距离较近这一假设来将样本分类。此类学习任务中被研究最多、应用得最广的是“聚类”（clustering），聚类问题是指将相似的样本划分为一个簇（cluster），与分类问题不同，聚类问题预先并不知道类别，训练数据自然也没有类别标签。无监督学习可以解决的常见问题还有关联分析和维度约简。关联分析是指发现不同事物同时出现的概率，在购物篮分析中被广泛地应用。如果发现买面包的客户有80%的概率会买鸡蛋，那么商家就会把鸡蛋和面包放在相邻的货架上。维度约简是指减少数据维度的同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法可以达到维度约简的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高维度转换到低维度。广为人知的主成分分析算法就是特征提取的方法。

半监督学习的特点是训练集同时包含有标签样本数据和无标签样本数据，不需要人工干预，让学习器不依赖外界交互，自动地利用无标签样本来提升学习性能。半监督学习是监督学习与无监督学习相结合的一种学习方法，一般针对的问题是数据量大，但是有标签数据少或者获取标签数据难度大、成本高的情况。

强化学习的特点是通过一些行为产生的反馈来促使模型演进。强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果Agent的某个行为策略得到环境正面的奖赏（强化信号），那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略以使期望的正面奖赏和最大。强化学习在机器人学科中被广泛应用。举个例子，在与障碍物碰撞后，机器人通过传感器收到负面的反馈，从而学会避免碰撞。在电子游戏中，可以通过反复试验采用一定的动作以获得更高的分数。Agent能利用回报去理解玩家最优的状态和当前应该采取的动作。

对于机器学习相关的算法知识此处不做更多的展开，有兴趣的读者可以参考其他机器学习方面的技术书籍。

近年来，机器学习，特别是作为机器学习分支的深度学习，对人工智能技术应用的快速发展起了非常重要的作用（人工智能、机器学习、深度学习等的关系见图1-6）。了解了机器学习后，下面我们来看一看深度学习的概念。

图1-6 人工智能、机器学习、深度学习的关系