1.3 研究内容与创新点
1.3.1 研究内容
本书主要集中于基于网络科学和标签的推荐算法研究,具体研究内容分为6部分。
(1)基于二分图的多参数网络结构推荐算法研究。通过分析经典的复杂网络推荐算法——基于二分图网络结构的推荐算法,发现对于用户的显式评分,这类推荐算法大多直接剔除低于中立评价的用户评分数据,使得数据集更加稀疏,降低了推荐的准确度。在不增加算法复杂度以及引进其他模型的前提下,针对用户显式数据的处理,提出兴趣相似系数与用户评分代表能力两个相关概念。兴趣相似系数用以衡量任意两个用户对同一项目的兴趣相似度。用户评分代表能力则反映了任意用户对某一项目的评分代表大众评价的能力。开展基于二分图的多参数网络结构推荐算法研究,提高算法的推荐质量。利用MovieLens数据集来测试算法性能,采用重复性随机取样来验证算法的有效性。
(2)基于显式数据的选择性随机游走协同过滤推荐算法研究。协同过滤推荐算法中用户之间的相似度度量主要采用余弦相似度或者Pearson相关系数法。传统的相似度度量方法易使明星用户成为多个用户的最近邻,造成用户推荐列表项目雷同,降低推荐的多样性。针对这一问题,在将显式用户行为数据转换为带权重的二分图的基础上,使用选择性随机游走方法来计算用户之间的相似度。在构建过程中,充分考虑用户对项目的显式评分,使算法适用于推荐系统中的用户-项目网络,通过游走结果反映目标节点与游走终点的相关性,使算法的选择策略合理有效。使用MovieLens和Netflix数据集验证算法的有效性,并与经典协同过滤推荐算法(CF)和考虑幂律函数的协同过滤算法(PL-CF)进行比较研究。
(3)基于隐式数据的选择性随机游走协同过滤推荐算法研究。用户行为数据包括显式用户行为数据与隐式用户行为数据。本书中,调整随机游走策略,使用基于隐式数据的推荐算法,基于天猫数据(该数据是用户浏览数据,没有显式评分,属于隐式用户行为数据)进行实证研究,发现其在召回率、精确度、多样性等评价标准方面与使用显式用户行为数据集结论一致,在覆盖率方面则显著优于CF和PL-CF,表明该算法具有良好的挖掘长尾项目的能力;此外,还研究了选择策略参数min对准确性与多样性的影响,并给出了min最优值的取值范围。
(4)考虑用户隐性信任关系的推荐算法研究。在分析现有基于信任网络的推荐算法基础上,从用户隐性信任关系出发,对用户行为系数和用户信任度函数进行改进。用户行为系数通过用户评分的相关资料进行推理,在此基础上计算评分准确度,以用户评分相似度为前提最终获得用户隐性信任关系。用户信任度函数的研究离不开显性信任的相关知识,函数的建立需要确定显性信任和隐性信任各自的权重比例,从用户评分的视角出发,挖掘用户间隐性信任关系,开展考虑用户隐性信任关系的推荐算法研究。利用Epinions网上的数据集验证改进算法的有效性。
(5)结合用户信任和兴趣的推荐算法研究。综合用户喜好、用户评分与项目属性的关系,以用户-项目评分矩阵为基础,加入项目类型信息,对用户评分阈值进行采集计算;收集用户隐性标签,研究用户偏好相似度,构建用户兴趣相似矩阵;构建概率矩阵分解模型对用户-项目评分矩阵进行矩阵分解,在得到用户潜在特征矩阵和项目潜在特征矩阵的基础上,将用户信任关系信息、用户兴趣相似信息融入用户潜在特征矩阵,优化训练模型参数,得到用户对项目的预测评分,进行结合用户信任和兴趣的推荐算法研究。利用Epinions网上的数据集验证改进算法的有效性。
(6)考虑信任关系和标签偏好的组合推荐算法研究。提取社交网络中的5种用户行为特征,包括无内容转发、有内容转发、评论、交流以及点赞,挖掘并利用这些信息,从基于信任网络传播和基于用户行为两个方面构造用户信任度模型,加权用户评分相似度进行推荐算法研究。以景点推荐为例,考虑用户对景点地理标签的偏好程度,从景点-标签、用户-标签和标签-标签三个维度分析用户对标签的偏好度,将用户对景点的兴趣偏好分解成用户对标签的长期偏好,在一定程度上缓解了“新城市”问题中缺乏用户历史游览记录导致的推荐结果不精确问题。选择加权组合推荐的方式,融合基于用户信任关系的推荐算法和基于标签的推荐算法的优势,对两种推荐算法的综合得分进行排序,产生Top-N推荐景点列表。利用网络爬虫技术抓取来自Flickr图片分享网站的真实数据作为实验数据,对提出的推荐算法与其他传统的推荐算法进行比较实验,证明新算法的准确性和可用性。
1.3.2 主要创新点
本书的主要创新工作体现为:针对推荐系统中的相似度问题、如何利用更多的用户和商品信息开展有效推荐,从网络科学视角提出了改进的方法。具体创新点可以分为以下5个方面。
(1)提出基于选择性随机游走的协同过滤推荐算法。在计算相似度时,使用选择性随机游走代替传统的Pearson相关系数法或余弦相似度计算方法,避免出现较多用户产生弱连接。与简单随机游走相比,选择性随机游走的最大特点是在下一步游走之前,随机选择不是一个而是多个游走目标,并根据一定的策略从中选择最佳游走目标,实现局部最优。通过提出游走选择策略,着重提高出度较小的用户和项目的影响力,以消除明星用户和项目对推荐的负面影响。
(2)提出考虑显式评分的网络结构推荐算法改进。针对网络结构推荐算法不考虑用户对项目的显式评分或直接排除低分项目造成信息丢失的问题,从网络角度,在用户推荐能量流动时,充分考虑用户显式评分的作用,提出用户兴趣相似系数和用户评分代表能力两个概念,进行推荐算法改进,提高推荐的准确性。
(3)引入用户行为系数和用户信任度函数,提出“用户兴趣相似度”概念,研究综合考虑用户信任和用户兴趣的推荐问题。以用户评分为出发点探索用户之间的隐性信任关系,开展考虑用户隐性信任关系的推荐研究。考虑用户偏好以及用户评分与项目属性之间的关系对推荐精度的影响,在项目类型相关资料以及用户评分阈值相关信息的基础上,根据用户-项目评分矩阵来研究用户隐性信任,提出基于用户信任和兴趣的概率矩阵分解方法,通过补充先验信息来改善训练模型的有关参数,从而提高推荐结果的精度,在一定程度上缓解直接信任关系数据的稀疏性问题,缓解传统CF推荐算法中存在的“新用户”和“冷启动”问题。
(4)引入隐性信任网络概念,考虑信任传播,研究基于信任传播网络的推荐问题。通过研究用户社交行为和社交影响力确定用户直接信任关系,从上下文情景信息中挖掘用户隐性信任,从用户的平均度数和最大传播距离考虑间接信任传递问题,在缓解直接信任关系稀疏和冷启动问题的同时提高计算用户信任度的准确度。
(5)引入标签喜好度映射用户对旅游景点的偏好,获取用户长期兴趣信息,研究考虑信任和标签偏好的组合推荐。不仅从用户的标签行为考虑景点-标签关系,还根据标签在用户间的流行度计算出用户对标签的喜好度,将用户的兴趣偏好分解成用户对不同景点标签的长期偏好,在一定程度上缓解缺乏用户历史浏览记录时推荐效果不佳的问题,有效提高推荐算法在“新城市”中的推荐质量。