2 元学习框架
正如在第1章中讲到的,元学习是基于任务的,目标是对不同的任务快速地给出准确的学习器。元学习算法框架非常灵活,包含很多种不同的思路和方法,这些思路和方法并没有严格意义上的分类,但是这些思路和方法都实现了元学习的理念——让机器学会学习。为了对这些思路和方法进行说明,分析它们的发展理念和应用上的优势,笔者将这些方法包含的思想进行了如下划分。
(1)神经网络适应法使用深度神经网络模型对任务的特性和共性进行建模。视经网络模型的表示力强,通过对数据进行合适的选择和关联,使用合适的深度学习模型,通过调参来适应新任务,得到的元学习模型效果十分不错。
(2)度量学习适应法(Metric-Based Adaptation)使用度量函数来衡量任务之间的相似性(Similarity),任务之间的相似性即任务之间的共性。度量函数中含有的变量参数包括神经网络特征提取(Feature Extractor)、降维模型(Dimension Reduction)、设计的度量函数包含的参数,度量函数中的可变参数反映的是对任务之间共性的建模。
(3)基础学习器和元学习器适应法将任务特性的学习和任务之间共性的学习进行了解耦。基础学习器的优化实现了对任务特性的最优拟合,元学习器的优化完成了对任务之间共性的学习,任务特性和任务共性的学习原本是共轭的任务,通过解耦,基础学习器和元学习器同时在这两项上达到了最好的效果,并且通过基础学习器和元学习器之间的沟通将二者有机结合了起来。
(4)贝叶斯元学习(Bayesian Meta-Learning)适应法将贝叶斯方法融入元学习算法,扩大了学习器的选择范围,对分布进行抽样或者近似,加速学习器的更新,通过生成式的抽样方式,加入演化,使用有监督学习方式对学习器进行更新。
元学习的思路很多,与其他学习领域的结合非常多,初衷是让机器学会使用其他学习框架进行学习,让其他学习框架变得更加接近General AI的理念,以下只是很多这些结合中的部分例子。
(1)在线学习每次接收到的流式数据都是小样本数据,每次接收到的流式数据都被看作一个新任务,机器需要根据小样本新任务及时做出反应,尤其是遇到从未见过的小概率事件,此时考虑元学习提高原模型的泛化能力非常必要。
(2)强化学习(Reinforcement Learning)考虑机器与环境之间的交互,学会使用奖励机制(Reward Utility),采用序贯决策算法(Sequential Decision Making),根据奖励机制计算最优的行动策略。考虑到环境是多变且有时是无法预测的,机器需要快速及时地更新此时的最优策略,且已有的深度学习模型也需要泛化到新的环境下,元强化学习(Meta Reinforcement Learning,Meta RL)是元学习和强化学习结合产生的领域。
(3)模仿学习(Imitation Learning)是机器人对另一个机器人或者人类的行为进行模仿,模仿人类或机器人的行为,估计奖励机制,然后根据奖励机制优化策略。类似地,元模仿学习是元学习和模仿学习结合产生的领域,使机器人通过一次模仿学会新动作。这意味着机器人通过一个模仿数据更新了深度模仿学习模型,元学习、强化学习、模仿学习、在线学习往往结合起来解决机器人领域的复杂问题。
(4)联邦学习(Federated Learning)注重在学习过程中的数据隐私保护(Data Privacy),每个用户端的数据被认为是一个任务数据集,所有用户端的地位是同等的,不同任务中的数据集是只属于这个用户端的隐私数据。元学习器的功能是学习所有用户端数据的共性,给基础学习器提供初始值。例如,对于基于随机梯度下降的基础学习器来说,元学习器提供基础学习器的参数初始值,基础学习器提供任务数据集上目标函数的梯度值。在基础学习器和元学习器之间的沟通交流中,基础学习器使用的是用户端的隐私数据,这些数据不能直接供给元学习器,只能将目标函数的梯度值传递到元学习器。在不同隐私保护的法律条款要求下,元学习器和基础学习器沟通交流的内容和范围受到限制,此时,元学习模型变得更加复杂,元学习器在限制信息交流的情况下为新任务提供基础学习器初始值。
深度学习对神经网络模型进行设计来达到模型效果的SOTA新高度,元学习领域的研究为提高模型泛化能力和解决实际问题提供模型框架,在框架中融合了许多现有的机器学习思想。元学习中考虑很多基础理论,给出模型更新理论上的直观指引,适用于不同的应用场景。本书将对这些元学习框架进行简要介绍,读者可通过阅读这些方法的简要介绍了解方法的应用场景,并且在已有方法的基础上进行修改和组合,形成新的元学习方法,以解决读者遇到的实际问题。