1.3 迁移学习定义
本节给出迁移学习的有关定义[7]。在给出迁移学习的定义之前,我们先回顾一下域和任务的定义。
定义1 (域)一个域D由特征空间X和边缘分布P(X)两部分组成。换而言之,D={X, P(X)}。其中,符号X指实例集,X={x|xi∈X, i=1, …, n}。
定义2 (任务)一个任务T由标签空间Y和决策函数f组成,即T={Y, f}。其中,决策函数f是隐式函数,自样本数据中学习得到。
有些机器学习模型实际上输出预测实例的条件分布,在这种情况下,f(xj)={P(yk|xj)|yk∈Y, k=1, …, |Y|}。
在实践中,我们一般通过许多带标签信息或不带标签信息的实例来观察一个域。例如,对应于源任务TS的源域DS通常是通过“实例-标签”对观察得到,即DS={(x, y)|xi∈XS, yi∈YS, i=1, …, nS}。对目标域的观察通常由大量未标记实例和有限数量的标记实例组成。
定义3 (迁移学习)给定对应于mS∈N+个源域和任务的观察(即),以及对mT∈N+个目标域和任务的观察(即1, …, mT}),迁移学习利用源域中隐含的知识来提升目标域的决策函数1, …, mT)的性能。
上述定义涵盖了多源迁移学习的情况,如果mS为1,则该场景称为单源迁移学习,否则称为多源迁移学习。此外,mT表示迁移学习的任务数。一些研究关注mT>2的情况,但一般现有的研究侧重于mT=1的情况(尤其是mS=mT=1)。值得一提的是,对域或任务的观察是一个广义的概念,通常被固化成有标签或无标签的实例集或预训练的模型。一个常见的场景是我们在源域上有大量的标记实例或有一个训练良好的模型,而在目标域上只有有限数量的标记实例。在这种情况下,实例和模型等实际上是观察结果,而迁移学习的目标是在目标域上学习更准确的决策函数。
迁移学习领域的另一个常用术语是领域自适应(Domain Adaptation)。领域自适应是指通过适应一个或多个源域来迁移知识,提高目标学习器的学习性能[8]。迁移学习往往依赖于领域自适应的过程,该过程试图减少域之间的差异。