摘要
随着互联网的迅速发展,个性化推荐系统已经逐渐成为各种网络应用不可缺少的核心功能,并以各种各样的方式影响着人们日常生活的方方面面:电子商务网站中的购物推荐引擎为用户提供可能感兴趣的商品推荐;社交网络中的好友推荐为用户寻找潜在的好友关注;视频网站中的视频推荐为用户提供最可能点击的视频推荐;新闻门户网站中的内容推荐为用户提供最有信息量的新闻。个性化推荐技术已经是支撑互联网智能的基础技术之一。
个性化推荐系统已经经过了近20年的研究和发展,然而隐变量方法的大量使用使得个性化推荐算法及其推荐结果的可解释性成为困扰学术界的重要问题之一,并且至今仍然没有在产业应用中得到很好的解决。举例而言,在很多实际推荐系统中,算法只为用户提供一份个性化的推荐列表作为结果,而难以向用户解释为什么要给出这样的推荐。缺乏可解释性的推荐降低了推荐结果的可信度,进而影响推荐系统的实际应用效果。考虑到推荐系统的应用范围之广和影响之大,可解释性推荐的研究具有其重要性和紧迫性。本书从数据、模型和经济意义三个方面对推荐系统的可解释性进行研究,主要有如下贡献。
第一,数据的可解释性。数据输入是个性化推荐系统的第一步,而用户-物品评分矩阵是个性化推荐算法,尤其是基于矩阵分解的个性化推荐算法最主要的数据输入形式。本书提出了基于双边块对角矩阵的局部化矩阵分解框架,并将其应用于矩阵分解的并行化。传统的矩阵分解算法将原始矩阵看作一个整体进行分解和预测,缺乏对矩阵内在结构的理解。本书提出矩阵的双边块对角结构,并在理论上证明该结构与二部图上社区发现算法的数学等价性,从而解释矩阵内在的社区结构和社区关系。在社区结构的基础上,进一步提出了局部化的矩阵分解框架,并从理论上证明了它与传统矩阵分解算法的兼容性,从而为常用的矩阵分解算法提供了一个统一的并行化框架,在提高预测精度的同时大幅提高计算效率。
第二,模型的可解释性。在用户-物品评分矩阵的数据基础上,个性化推荐模型对用户进行偏好建模并给出个性化推荐。本书提出了基于短语级情感分析的显式变量分解模型及其基于时间序列分析的动态化建模。基于矩阵分解的隐变量模型由于有较好的评分预测效果和可扩展性,逐渐成为个性化推荐的基础算法,并在实际系统中得到广泛的应用。然而,由于变量在本质上的未知性,隐变量模型难以对推荐算法和推荐结果给出直观可理解的解释,进而降低了推荐系统对用户的可信度。本书利用短语级情感分析技术从大规模的用户评论中抽取产品属性词及用户在不同属性上表达的情感,进而引入显式变量,并提出基于显式变量分解模型的个性化推荐算法,一方面使得模型的优化过程具备直观意义,另一方面给出在模型层面可解释的推荐结果和个性化推荐理由。由于用户在不同属性上的偏好具有时间周期性,本书利用时间序列分析对用户偏好进行动态建模和预测,实现了动态时间意义上的可解释性推荐。
第三,推荐的经济学解释。推荐系统在用户行为数据和个性化偏好建模的基础上,以个性化推荐的方式隐性地调节商品在用户中的匹配和购买,从而在最终层面上影响所属系统的经济效益。本书提出基于互联网系统总福利最大化的个性化推荐框架,并给出典型应用场景中的具体实现。随着人类传统线下活动的不断线上化,常见的互联网应用均可以形式化为“生产者-服务-消费者”模型,例如在电子商务网站中,网络商家(生产者)提供在线商品(服务),而网络用户(消费者)则在众多的商品中进行选择和购买。基于传统经济学的基本定义,本书首先给出了互联网环境下效用、成本和福利的基本概念与统一形式,并进一步给出了互联网应用中总社会福利的通用计算方法。在此基础上,以互联网服务分配为基本问题,提出基于网络福利最大化的个性化推荐框架。随后,本书在典型的网络应用(电子商务、P2P借贷、在线众包平台)中对该框架具体化,并进行个性化的网络服务推荐与评测。实验结果表明,该方法可以在为用户提供高质量服务推荐的同时,提升社会总福利,即在提升用户体验的同时又增进了社会效益。
关键词:个性化推荐;协同过滤;情感分析;可解释性;计算经济学;人工智能