大数据技术与应用
上QQ阅读APP看书,第一时间看更新

2.3 互联网企业对大数据的运用

在对大数据的运用方面,拥有较长历史的莫过于以亚马逊(Amazon,见图2-4)为代表的电子商务企业了。亚马逊基于大量购买历史记录和点击流数据,做出“购买了本商品的顾客还购买了……”的商品推荐功能,这种做法现在已经随处可见了,但像这样为客户推荐合适的商品,过去只有经验丰富的销售人员和熟悉客户的店员才能做到,是“具有人类属性”的行为,现在却能够由计算机来自动完成,这一点具有划时代意义。 

Facebook(脸谱)及主要面向商业用户的LinkedIn(领英),可以算是在大数据运用方面取得显著成果的企业代表。毋庸置疑,在SNS(Social Network Software,社会性网络软件)业务的运营上,最重要的就是人脉。如果一个用户注册后,发现上面一个认识的人都没有,那么这个用户可能很快就会注销账号,或者是很久都不会再登录了。因此,SNS方面最为重视的,就是不断提高“也许您还认识……”功能的精确度。因为如果用户在寻找好友或熟人上需要花太多的时间和精力,对SNS业务就会带来很大的负面影响。 

在全世界200个国家拥有1.5亿用户的LinkedIn,在好友推荐功能上采用的算法非常原始,即:如果A和B是朋友,B和C是朋友,则A认识C的可能性很大。然而,虽然LinkedIn的用户数不及Facebook,但也达到了跟日本总人口相当的规模,从如此多的用户中找到熟人,就好像是大海捞针一般,其难度是超乎想象的。 

Facebook则十分重视“您可能还认识……”这个功能,对用户找到好友所需要的时间进行监控。通过运用精准的用户追踪技术和分析技术,Facebook掌握了一个规律,即如果一个用户能够在一定时间内找到一定数量以上的好友,则该用户就很可能会长期使用Facebook。因此,Facebook为了能够让新用户尽早找到一定数量的好友,在服务的设计上倾注了大量的心血。 

978-7-111-53304-7-Chapter02-4.jpg

图2-4 电子商务的代表企业——亚马逊(Amazon)

在线DVD租赁公司Netflix 也采取了和Facebook相同的策略。当用户注册时,Netflix会强烈推荐用户在“想看的电影清单”中添加几部电影作品。因为该公司的数据团队通过数据分析发现,顾客在“想看的电影清单”中添加的作品数量与会员签约时间存在相关性。也就是说,当用户在“想看的电影清单”中添加的作品数量超过一定值(可能是10部或者20部)时,就会长期继续签约成为该网站的会员,这也就意味着他们可以为公司带来收益。Netflix通过运用这一数据对服务进行设计,使得新用户在“想看的电影清单”中添加的电影数量能够尽量超过这一“魔法数字”,并进行反复测试,对用户行为是否符合设计意图进行持续监控。 

Google也是以大数据为武器的重要企业,其强大之处在于,它能够利用“搜索历史记录”这一在用户看来毫无用处的“数据垃圾”,接二连三地推出有价值的新服务,如智能关键字修正、手写输入、Google翻译和语音搜索等。这些功能和服务的共同点在于统计学的学习方法。在模式识别的世界中有这样一句话:大量的数据往往要胜于优秀的算法。这句话的意思是,相比用复杂的算法来识别每一条新输入的数据来说,对大量存储的正确数据进行分析,在统计学上往往能够得出最合适的结果。而刚才列举的Google 的各种功能和服务恰恰印证了这一点。 

智能关键字修正功能(您要搜索的是……)是对每月900亿次的搜索记录进行分析,找出用户在搜索时可能打错的,或者是输入法转换错的关键字,以及之后又重新输入的,或者是用户点击的正确的关键字,通过机器学习的方式来进行分析处理。 

关于Google翻译,在Google翻译主页上的常见问题解答中进行了如下说明。 

1)Google是否开发了自己的翻译软件? 

是的。Google的研究小组已针对目前在Google翻译中提供的语言对,开发出了自己的统计翻译系统。 

2)什么是统计机器翻译? 

人们当今使用的大多数最新商用机器翻译系统都是采用基于规则的方法开发的,这些系统需要进行大量定义词汇和语法的工作。 

Google的系统采用的是不同的方法:将数十亿字词输入计算机,既有目标语言的单一语言文本,又有包含不同语言之间人工翻译示例的对应文本。然后,应用统计学习技术构建翻译模型。在研究评估中获得了非常好的结果。 

3)翻译质量没有达到我期望的水平。可以翻译得更准确一些吗? 

……为了提高质量,我们需要大量双语文本。如果您有大量双语或多语文本并且愿意提供给我们,请与我们联系。 

可以看出,“大量”是这段说明中的关键词。以搜索引擎为首,包括翻译、语音搜索等各种服务,Google都是免费提供的,其中一个理由就是为了收集大量的样本数据。