1.2 推荐系统发展的天时、地利、人和
推荐系统的最简单的评判方法就是每次请求都保证能展示新内容。
优质生产者的作用是非常大的,不可忽视。
推荐系统并不是一开始就像现在这样是主流的,以前的内容平台更加依赖编辑的筛选,如笔者上学的时候特别喜欢网易的一个专栏,叫“轻松一刻”,小编会结合时事,找各种图来玩“梗”。这些专栏的内容对于任何用户都是固定的顺序和固定的内容,如果你喜欢看汽车或体育的内容,则需要切换到相关的标签或话题下寻找。这是第一个阶段,完成推荐的主体是人,而且是非个性化的。需要指出的是,其实在同期,推荐的各种理论和算法已经在发展了,但一是性能还有待提升,二是需要推荐的内容没那么多,人工就可以处理,如图1-3(a)所示的全局热度(无推荐)阶段。
后来笔者看到手机新浪平台开始尝试推荐,专门划出一个板块,叫“猜你喜欢”,里面由算法来完成推荐,可以看出推荐的内容和历史行为有很强的关联,但是这部分所占的空间很少。在此阶段完成推荐的主体已经是机器了,而且出现了不错的个性化,如图1-3(b)所示的初步尝试(部分推荐)阶段。这时,无论是平台还是用户,观念已经在逐渐转变了,推荐系统爆发即将到来。
现在再看各种媒介,很难找到一些人为设定好的内容了,每个人能刷出来的内容几乎没有重复的,而且哪怕一直刷下去,也有无限多的内容供给,如图1-3(c)所示的占据主导(几乎全部是推荐)阶段。原因在于,一方面信息量剧增,另一方面推荐已经做到了高度个性化。纵观这三个阶段,这中间发生了什么变化,使得推荐系统逐渐进展到如今的现状呢?
图1-3 推荐系统的三个阶段
有三个因素共同推进了推荐系统的繁荣。
(1)天时:我们进入了一个移动互联网时代,获取信息变得十分方便,人们对信息的渴望也急剧增大。
(2)地利:分布式计算突飞猛进,算法日新月异,相比于人为设定的方式,推荐系统确实带来了很大收益。
(3)人和:好的推荐系统上总有很多优秀的生产者,优秀的生产者和消费者可以互相形成正反馈。
1.2.1 天时
移动互联网时代,人们的“碎片时间”变得非常多,流量也变得更便宜。地铁上、公交上,很多人都在刷手机。这类需求就构成了推荐系统大发展的一大动机:用户不希望每次打开都是固定的内容,他们想看新的,并且最好不用自己动手翻找。这时如果有个产品能不停地把新鲜内容推荐给用户,他们就可以一直看下去。类似的需求不只发生在通勤途中,上班休息时、学习闲暇时都需要。有这么大的对内容的需求,推荐自然就非常重要了。
从这个角度我们可以对比一下论坛产品(如贴吧、虎扑)和信息分发产品[1]。像贴吧这样的产品在以前没有推荐功能,用户看到的内容得按照发帖时间或者回复时间排序,这样用户如果看完了第1页所有的内容,正好有别的事情要去做,过了一会儿又有一段空闲时间,再打开时,上面的内容没怎么变,想要看新的,就得自己手动翻到第2、3页。系统给用户设立了一个门槛:由于每次都要自己翻页,翻的次数多了门槛越来越高,最后没有了再翻下去的动力。
现代的推荐系统则不同,每次刷新都有新东西出现,用户就没有门槛了。一个简简单单的手指上下滑动作就能不停地出现新东西,用户自然会更喜欢。这里我们可以插一句,现在短视频推荐系统一般都会把用户的使用时长当作一个主要的指标,一方面,它代表用户沉浸在平台上的程度;另一方面,它体现了平台可以变现的能力。后面这句话怎么理解呢?上面提到过,广告往往是按照展示来收费的,如果用户的使用时长越长,平台就能插进去更多的广告,这就是平台变现的方式。
所以,“每次刷新都出新的东西”和“过一会儿就想刷刷手机”这两件事情完美地结合起来了。除了算法要做到极致,有没有丰富的内容或者用户关心的内容也很重要,后者可能是用户使用的更大动机来源。
1.2.2 地利
一种产品形态的发展,除了巨大的需求,往往还需要有相应的技术来承载。过去的十年,不仅深度学习突飞猛进,机器学习分布式计算的发展也十分迅猛。这里可以归纳一下,做一个现代的大型推荐系统,需要的技术支持。
(1)当用户刷新时,推荐系统需要迅速反应。新的物料在滑动的一瞬间就可以出现,首先需要依赖网络技术的发展,传输图文或视频要在短时间内完成。如果是短视频公司,在音、视频编解码这块需要有研究[2]。
(2)短时间内必须获取用户的特征,并选出合适的物料。这是非常依赖分布式计算的。在一次推荐中,哪些特征从同一批机器里面得到嵌入都是很有讲究的。一方面,现在的推荐模型往往也有神经网络在其中,因此神经网络的并行化对推荐的提升作用很大;另一方面,当平台的候选物料很多时,如何科学存储、索引也很重要[3]。
(3)生态的形成和保护,这是专指内容理解技术的。即使大公司会招聘很多审核人员,绝大多数审核也会先由机器来完成。这需要计算机视觉(Computer Vision,CV)技术来理解某个视频是不是合规,观感是否合适。在用户评论时,需要用自然语言处理(Natural Language Processing,NLP)技术对他们发表的言论进行过滤。如果论坛中的评论粗俗不堪,那么对用户体验的伤害极大,对平台的品牌打造也有很大的负面影响。现在的平台很轻易地可以判别用户的言论,这对于形成良好的生态是不可或缺的。
(4)个性化推荐。这点是理所当然的。算法越优质,推荐就越精准,越能满足用户的兴趣需求,对于整个平台的促进效果是很显著的。本书主要介绍的对象也是个性化的推荐算法。
1.2.3 人和
所谓“人和”,指的是在有意无意间,很多人都会参与到推荐系统的生态建设中去,既是消费者,又是生产者。生产者对平台的发展在前、中期都有很大的帮助[4]。
《我看电商》一书里提到的阿里巴巴早期可以赢过易趣(eBay),最后把国内的电商平台做起来的原因是,阿里巴巴给中小商家提供机会,帮助他们推广自己的产品。这是一个多赢的好事情:中小商家在线下的曝光往往是低效的,如江浙的卖茶商家,他们在大街上卖茶效率可能不高,因为这类产品在当地很多。但是如果先人一步在网络上打出名气,别的地区的用户可能会很感兴趣,销路就变多了。这些中小商家也会帮平台打广告,吸引更多的商家进驻。这和上面举的新疆水果的例子是类似的。
现在这个时代,人人都可以做自媒体。简单来说,就是普通大众都有发表见解、展现自我的机会。都说“高手在民间”,有些很优质的自媒体甚至可以养活一个平台。比如“漂亮的小姐姐”这样的话题能火的原因有三:其一,世界上不缺好看的小姐姐,这一点注定生产者是不会缺少的;其二,生产者的门槛不高,对本来就好看的小姐姐来说,怎么拍都有人看。同时,软件也会自带很多美颜功能,你不够美也能把你变美;其三,这样的生产者永远不会过时,也永远不会让消费者讨厌。明星的社交账号也是同理的,如果所有明星和名人都用同一个平台发布动态,那么他们的粉丝基本都会使用该平台,这样该平台的活力就有了一个保障。这就是一个生产者起到正面作用的例子。
成功的推荐系统,头部生产者都在里面发挥了不可或缺的作用,如直播平台。有的直播平台花高价请来退役的电竞选手,其一,这些电竞选手自带粉丝,搞活动、解说比赛都能带来大量流量;其二,主播们一起玩的时候,总能出现一些出圈的“经典时刻”,这些“经典时刻”在各大平台上传播,可以提升直播平台的知名度;其三,这些主播直播其他游戏时,能起到很好的广告作用,拓宽平台的业务涵盖范围。
也有一些失败的推荐系统,它们输在了生产者上。笔者见过的一个例子是,依靠发金币来拉新,用户看视频,或者看文章能拿到金币,到一定程度就可以变现。一开始无往不利,用户数量和日活跃用户数都飞涨,但是活动一停下来,用户数量就断崖式下跌。根本原因是什么呢?因为平台里面的视频、文章都是搬运的,用户没有必须使用本平台的动机。金币发得再多总会停下来,这时用户就开始大量流失了。
[1] 互动的因素也有,但是会弱一点,主要还是把内容推荐给用户。
[2] 尤其是视频,它的网络传输量比图文要大很多。
[3] 在后面讲粗排模型时,会讨论一下工程能力对于模型的影响是什么。
[4] 特殊之处是到了后期,用户和平台之间有可能会发生相互挤对,这个留到后面再讲。