2.4 互联网竞拍公司eBay
数据仓库领域的头牌厂商Teradata,为其客户中使用物理容量超过1PB的大规模数据仓库的用户企业成立了一个Petabyte Club(PB 俱乐部),其成员包括美国银行、沃尔玛、戴尔和AT&T等各行业中的顶级企业,而其中数据量排名第一的,则是互联网竞拍公司eBay见图2-5)。eBay在全世界拥有超过2.7亿名注册会员,可以说是世界上最大的网上竞拍公司。
50TB—这是每天从eBay网站上产生并存储到数据仓库中的数据量。单单说50TB这个数字,可能还不太直观,可以想象一下在家电商场中卖的那种16GB的U盘,50TB差不多相当于3000个这样的U盘。并且这50TB的数据并不是一年的量,而是仅仅一天的数字。不仅如此,平均每天需要处理的数据量竟然超过了100PB,对于这样超乎寻常的大数据,每天需要执行数百万条查询。
图2-5 数据仓库领域的领头羊——eBay
2.4.1 超乎寻常的数据产生速度
eBay上每天都在买卖各种各样的商品,但其交易的产生速度和一般的电商网站相比不在一个数量级上。例如,eBay上每天买卖的MP3播放器超过3600台,香水超过4800件,化妆品每两分钟卖出一件,而洗发水、护发素等洗护产品几乎每秒都会产生新的交易。
而且,并不是只有便宜的东西才有比较大的成交量。例如,钻戒每两分钟也会卖出1只,手表每分钟可以卖出3块以上,女式提包则每分钟可以卖出5个以上,甚至连汽车的交易量也能达到每分钟一辆,着实令人惊叹。在eBay的网站上,买卖行为是连续不断产生的,因此,在大数据的3V特征中,可以说Velocity(速度)是体现得最显著的一面。
那么eBay对于如此庞大的数据是如何运用的呢?在数据分析已经浸透到企业DNA中的eBay,从市场营销、客户忠诚度提升、财务、客户服务,到对卖家/买家双方体验的改善,这些方面都需要进行数据分析。在这些目的中,最重要的就是通过用户行为分析来提升用户体验。
经常使用eBay的用户可能会注意到,eBay网站的设计会频繁发生变化,其目的就是为了提升网站访问者的用户体验,也就是说,是为了用户能够更舒服地使用网站而对其设计和用户界面进行优化。David Stone说:“达到这样大的规模之后,哪怕是对菜单和链接的布局进行一点小小的改动,都会大幅影响营业额。”因此,据说对于网站中的一个页面,有时居然会有23名项目经理在负责。如果觉得页面上存在问题,先要提出假设,然后在两周的时间中通过测试等手段进行验证,最后再决定是否要将修改发布到网站上。
为了进行这样的分析,eBay存储了两年内所有用户在网站上的行为历史记录(访问日志),例如,“只是浏览了商品,但没有购买”“在最终下单之前又取消了”等。过去,eBay只保存用户行为历史数据中的1%,进行测试时,等到得出结果往往需要2~3个月的时间。但现在将100%的数据都保存下来,测试结果只要一周,最快甚至只要半天就能够得出。
2.4.2 eBay的数据分析基础架构
eBay 的分析基础架构包括3个部分。
l)企业数据仓库(EDW):主要负责存储用户的购买记录、商品销售记录等交易数据结构化数据)。通过采用Teradata提供的数据仓库系统,EDW中存储了总共6PB的数据,有500多人同时使用,并有数百个应用程序依靠该系统工作。
2)Singularity:这是一个主要负责存储用户行为记录等半结构化数据的数据仓库。它采用的是Teradata的一款低端企业级产品,并发用户数量被控制在150人左右。相对地,它比EDW存储了更大量的数据,总计数据量超过40PB,其中最大的数据表有1.9万亿行记录,数据量达到了1.2PB。
3)Hadoop(分布式系统基础架构):在通用型硬件上搭建的Hadoop集群,用于存储非结构化数据,这些数据是从用户行为记录数据和EDW中选取特定的数据复制过来并存储的,主要用途为文本分析和机器学习,并发用户数只有很少的5~10人左右,但数据量却超过了20PB。
eBay之所以同时准备了3种不同的数据基础架构,是因为考虑到“没有唯一的技术法宝”,也就是说,无论哪种技术都有其长处和短处,仅靠EDW或者仅靠Hadoop都不行,只有这3种技术相互结合和补充才是最优的方案。
一些重要的观点如下。
第一,通过对用户在网站上的行为记录(访问日志)进行100%的保存(过去是1%),网站测试效率实现了飞跃性的提升。数据分析的对象从原来的抽样数据变成了全部数据,这一点作为运用大数据所产生的效果,是非常具有说服力的。
第二,任何技术都有长处和短处。eBay自身对各种技术的特点进行了评测,并对每种技术的用途进行了理性判断。例如,要满足500个并发用户访问,必须使用传统的数据仓库;相对地,对非结构化数据的存储,传统的数据仓库又很困难,而Hadoop则是最合适的选择。如今,在大企业中,数据仓库的应用越来越广泛,考虑构建Hadoop集群的企业也将越来越多,eBay的处理方式值得大家参考。