2.1 奥巴马的竞选大数据
2008年11月5日,代表民主党的巴拉克·奥巴马当选美国第44任(第56届)总统。2011年4月4日,奥巴马宣布竞选2012年美国总统(见图2-1)。2012年11月6日晚(当地时间),奥巴马在美国大选中以332(选举人)票对206票,击败共和党的米特·罗姆尼,连任美国总统。在这样一场势均力敌的政治角力中,双方阵营在人力、财力和物力上的投入可以说是在伯仲之间,究竟是什么原因导致了曾在民意调查和电视辩论中一度处于弱势的奥巴马咸鱼翻身呢?是什么帮助奥巴马的竞选团队在最短的时间内筹措到10亿美元的竞选资金呢?又是什么力量帮助奥巴马的智囊团队成功预测到哪些摇摆州会左右选情呢?尘埃落定后,众人才恍然大悟——是“数据”。
选战之初最为关键的是筹集资金。奥巴马的数据科学团队做的第一件事就是搭建了一套统一的数据平台,将先前散布在各个数据库内关于民调专家、选民、筹款人、选战员工和媒体人的数据聚合在一起。搭建数据平台并完成数据整合在事后被证明是奥巴马数据科学团队走的最为关键的一步棋。数据整合从根本上解决了一直以来令竞选团队头疼的数据一致性问题,各个团队可以同步共享统一的人员名单并保持实时更新,确保了每个团队能最有效率地开展各自的工作,并兼顾或借鉴其他团队的工作成果。比方说,负责资金筹集的部门在给目标客户打电话前,已经收到一份由动员投票团队提供的详尽名单,上面不仅列出对方的名字与电话号码,还有他们可能被说服的内容,并按照竞选团队最重要的优先诉求来排序。决定排序的因素中有3/4是基本信息,比如年龄、性别、种族、邻居及投票记录,这使得整个募集资金团队的工作效率大大提高。
图2-1 奥巴马参加选举
数据整合之后就是建模。伴随着反馈数据的收集,数据科学团队马上着手利用已有数据对未来数据构建统计和推荐模型。借此,竞选团队能够搭建基于聚类的决策树,来判断哪些人会采取怎样的捐赠方式;也能针对历史数据发现那些流失掉的捐款者的流失原因是什么,进而有的放矢地重新吸纳那些人,甚至挖掘出一些特定人群的捐赠习惯。例如他们发现在网上或者通过短信重复捐钱,而无须重新输入信用卡信息的人,捐出的资金是其他捐献者的4倍。
选战之首是要对选情了如指掌。传统的做法是选前各种五花八门的民调,但这也是传统数据统计方法的局限所在,它只能告知现象,却不能告知原因。奥巴马的数据科学团队从多个角度去寻求突破。首先,他们扩大了调查样本,以俄亥俄州为例,数据分析团队做了29000人的民调,相当于该州全部选民的0.5%。同时,他们动用多组而不是一组民调数据来勾画更完整的数据图谱。更关键的是,数据科学团队用计算机对采集来的民调数据进行模拟竞选,有时候一个晚上要运算66000次来模拟各种情况下的选情结果。竞选团队在每天早上第一时间都能得到这样一份报告,提供指导性的意见,从而应对变化,并调配资源。正是通过构建这样的预测模型,竞选团队成功判断出大部分俄亥俄州人不是奥巴马的支持者,反而更像是罗姆尼因为9月份的失误而丢掉的支持者。
奥巴马的大数据团队证明了拥有海量数据和相应的处理数据的能力,的确是瞬息万变的政治角力中不可或缺的一支力量。