大数据云图:如何在大数据时代寻找下一个大机遇
上QQ阅读APP看书,第一时间看更新

Facebook,图片和分享的力量

2012年11月22日,图片分享应用Instagram的用户分享了很多照片。这是Instagram史上最忙的一天,该应用程序的用户当天分享的照片量是前一天的两倍,那是因为11月22日这天恰好是感恩节。Instagram的用户下载了大概1000万张图片,这些图片上都写着以感恩为主题的祝福。说得委婉些,很多是关于火鸡图案的图片,当然也有爱人的照片。目前,每个月大约有9000万人都在使用这项服务。

2012年年初,Facebook以10亿美元收购了Instagram。Facebook在图片分享方面并不输给Instagram。Facebook的用户在2011年年末,每天的图片平均下载量达到了2.5亿张,每月大概达到了75亿张。

当然,我们喜欢照片还有另一个原因,那就是现在拍照很容易。就在几年前,我们还需要考虑该拍摄什么,不该拍摄什么——而现在影像随处可见。在以前,如果我们的胶卷快用完了,还得省着最后一点下一次用。但现在,数码相机、智能手机和便宜的存储设备使我们可以拍摄多得数不清的数码照片。现在,几乎每部智能手机都有内置摄像头。这就意味着,我们不但可以随意拍照,还可以轻松地上传或分享这些照片。这种轻松、自在的拍摄和分享图片的过程充满了乐趣和价值。因此,当我们遇到有趣的信息图时,很自然地想分享它们。

和照片一样,如今制作信息图也要比以前容易得多。公司制作这类信息图的动机也多了。2011年2月,搜索引擎巨头谷歌公司改变其算法来奖励高质量的网页,尤其是“具有诸如调查、深度报道、有思想深度的分析等这类原创内容和信息的网站”。结果,公司的营销人员发现,要想让公司的网站在谷歌搜索排名中靠前,他们就得更加努力。

但一个拥有有限信息资源的营销人员该做些什么来让搜索更加吸引人呢?答案是制作一张信息图。信息图可以吸纳广泛的数据资源,使这些数据相互吻合,然后编造一个引人入胜的故事——涉及网页浏览器的时候,就讲关于浏览器战争的故事;涉及集体融资的时候,就讲提供就业机会的故事。博主和记者们想方设法地在自己的文章中加进类似的图片,因为读者喜欢看图片,同时也乐于分享这些图片。

最有效的信息图还是被不断重复分享的图片。其中有一些图片在网上疯传,它们在社交网站如Twitter、Facebook、LinkedIn以及我们传统但实用的邮件里,被分享了数千次甚至上百万次。

由于信息图制作需求的增加,帮助制作这类图形的公司和服务也随之增多。2011年成立的信息图制作工具Visual.ly在其网站上展示了超过25000张信息图。未来Visual.ly的商务模式还会扩大,从网站上能明显看出,人们对使用视觉信息传达知识有着巨大的需求。其他公司,例如QlikTech公司和它推出的QlikView产品、Tableau Software公司和Spotfire公司提供的TIBCO产品有助于人们在做报告、分析和市场营销时创建引人入胜的可视化效果。2010年,谷歌推出了“谷歌公共数据浏览器”(Google Public Data Explorer),使得人们能在线浏览公共数据。

公共数据集

使用可视化工具的企业客户在提到可视化时通常会想到仪表盘(dashboard)的生成。仪表盘将有关销售、市场营销和供应链的数据转换成管理人员易于查看的含义丰富的图表。

现在,可视化的作用得到进一步的延伸。公共数据集是指可以公开获取的政府或政府相关部门经常搜集的数据。人口普查是收集数据的一种形式,1790年美国人口普查局首次进行了美国人口普查。这次人口普查使美国政府获取了大量与美国人口相关的信息,其中包括人口的组成及其地理分布。

正如数据故事家汉斯·罗斯林(Hans Rosling)所阐释的,这些数据对于人们了解人口变化、国家兴衰以及战胜婴儿死亡率与其他流行病的进程尤为重要。罗斯林像足球解说员回放比赛录像一样,用数据可视化(尤其是公共数据)来述说与数据相关的事实。罗斯林赋予了数据生命力。但他并不是将数据像动画片一样播放出来,而是将数据绘制成图表,然后进行演示。例如,数据走势是怎样随着时间的变化而变化的,或是不同国家的相对人口或收入在四五十年里是怎样演变的。这种动画效果使数据具有了生命力,罗斯林和他的儿子、儿媳妇所开发的软件成了谷歌公共数据浏览器的基础。

一直以来,很多著名的可视化信息中所使用的公共数据都是通过新颖、吸引人的方式来呈现的。Visual.ly在其网站刊有一篇名为《12张定格历史的伟大可视化图片》的文章里,展示了一些类似的图片。其中的一些可视化图片表明,恰当的图片可以非常有效地传达信息。例如约翰·斯诺(John Snow)关于1854年伦敦爆发霍乱的图片,形象地解释了被污染的井水是霍乱传播的罪魁祸首。

大约在同一时间,现代护理教育的奠基人弗洛伦斯·南丁格尔(Florence Nightingale)制作了另一张拯救了众多生命的著名图表。南丁格尔用锯齿图将复杂的统计信息形象、生动地展示给了众多观众。更重要的是,南丁格尔的图表表明英国军队中的很多疾病是可以避免的:士兵们死亡的原因多数是由于非作战因素造成的,因此,她成功地说服了政府使用卫生设施来降低死亡率。

实时可视化

很多信息图提供的信息从本质上看是静态的,即使是罗斯林制作的吸引人的动态图,其本质也是由静止的历史数据构成的。

通常来说,制作信息图需要花费很长的时间和精力:它需要数据,需要展示有趣的故事,还需要以图标将数据以一种吸引人的方式呈现出来。但是工作到这里还没结束。图表只有经过发布、加工、分享和查看之后才具有真正的价值。当然,到那时,数据已经成了几周或几个月前的旧数据了。那么,在展示可视化数据时要怎样在吸引人的同时又保证其时效性呢?数据要具有实时性价值,必须满足以下三个条件:

●数据本身必须要有价值;

●必须有足够的存储空间和计算机处理能力来存储和分析数据;

●必须要有一种巧妙的方法及时将数据可视化,而不用花费几天或几周的时间。

想了解数百万人是如何看待实时性事件,并将他们的想法以可视化的形式展示出来的想法看似遥不可及,但其实很容易达成。我们只要看看2012年的美国总统选举就知道原因了。

在过去的几十年,投票需要民意测试者打电话或亲自询问每个选民的意见。通过将少数选民的投票和统计抽样方法结合起来,民意测试者就能预测选举的结果,并总结出人们对重要政治事件的看法。

尼尔森(Nielsen)使用同样的统计法来调查电视收视率,康姆斯克(Comscore)则用这个方法来调查网络市场。尼尔森最初进行媒体调查时,使用了一种设备来调查1000个人收听的是什么电台。随后,公司将类似的方法运用于电视节目,“尼尔森收视率”(Nielsen ratings)从此广为人知。这种调查方法至今仍被广泛沿用,但在其他领域,大数据正改变着我们的调查方法。要说最近几年,有哪家公司对我们调查公众意见产生了更大的影响,那就是Twitter——它有一个叫作“情感分析”(Sentiment analysis)的工具。

事实上,Twitter可能是拥有大数据资源的公司中最被低估的公司之一。2012年10月,Twitter的用户每天在网络上发送的推文大约有5亿条,对于人工生成的信息来说,这是一个相当可观的数字。Twitter成立于2006年,最初还完全没有发送推文的功能。通过分析推文中使用的词语,计算机程序不仅可以发现流行的话题,即受到更多关注的话题,还可以得出人们感觉如何、持什么观点的结论。

捕捉和存储数据只是像Twitter这样的公司所面临的大数据挑战中的一部分。为了分析这些数据,公司开发了Twitter数据流(tweet stream),即支持每秒发送5000条或更多推文的功能。在特殊时期,如总统选举辩论期间,用户发送的推文更多,大约每秒2万条。然后公司又要分析这些推文所使用的语言,找出通用词汇,最后将所有的数据以可视化的形式呈现出来。

要处理数量庞大且具有时效性的数据很困难,但并不是不可能。Twitter为大家熟知的数据流入口(firehose access)配备了编程接口。像Twitter一样,Gnip公司也开始提供类似的渠道。其他公司如BrightContext,提供实时情感分析工具。在2012年总统选举辩论期间,《华盛顿邮报》在观众观看辩论的时候使用BrightContext的实时情感模式来调查和绘制情感图表。实时调查公司Topsy将大约2000亿条推文编入了索引,为Twitter的政治索引提供了被称为“Twindex”的技术支持。Vizzuality公司专门绘制地理空间数据,并为《华尔街日报》选举图提供技术支持。

与电话投票耗时长且每场面谈通常要花费大约20美元相比,上述公司所采用的实时调查只需花费几个计算周期,并且没有规模限制。另外,它还可以将收集到的数据及时进行可视化处理。

但信息实时可视化并不只是在网上不停地展示实时信息而已。“谷歌眼镜”(Google Glass)被《时代周刊》称为2012年最好的发明。“它被制成一副眼镜的形状,增强了现实感,使之成为我们日常生活的一部分。”将来,我们不仅可以在计算机和手机上看可视化呈现的数据,还能边四处走动边设想或理解这个物质世界。这听起来像是科幻小说中才有的情节,但其实不然。现在,购买一副谷歌眼镜需要花费高达1500美元的费用,但就像其他新科技一样,谷歌眼镜也会随着时间的流逝变得更小、更便宜。

图像的多变性,计算机在识别中遇到麻烦

讽刺的是,虽然计算机在处理大量文本信息的时候无人能敌,但在分析可视化信息时却显得尤为吃力。回想一下上一次的情景。你照了几百张照片,想找一个网站或软件能帮你自动删除照得不好的照片,并将相关的照片归类分组;或能自动辨认照片中的人物并和这些人分享这些照片。从更大范围上来说,你希望像Facebook这样的公司可以将不好的照片过滤出来,而亚马逊可以判断书本中的文字描述与对应的图片是否相符。尽管如今与图片识别和图片描述有关的科技发展得如此迅速,而且这些问题看上去计算机很容易就能解决,要大量进行这种分析仍然颇具挑战。

麻省理工学院和哈佛大学的科学家们,在他们所著的一篇《为什么现实生活中识别可视物体这么困难?》(Why Is Real-World Visual Object Recognition Hard?)的论文中说道:“我们可以轻松识别可视物体,这种轻松正是计算机识别的难处。主要挑战就是图像的多变性——例如物体的位置、大小、方位、姿势、亮度等,任何一个物体都可以在视网膜上投射下无数个不同的图像。”简单说来,图像变化多端,因此很难分辨不同的图片是否包含了相同的人或物。而且,图案识别也更加困难;尽管要在一个句子中找出“总统”这个单词很容易,在上百万个句子中找出它来也相对简单,但要在图片中找出拥有“总统”这个头衔的人却困难重重。

让某个人描述一张图片的特征很容易,但要描述上百万张图片该怎么办呢?为了解决图片特征问题,像亚马逊和Facebook这样的公司开始向众包市场,如oDesk平台和亚马逊土耳其机器人(Amazon Mechanical Turk)亚马逊土耳其机器人是一个Web服务应用程序接口(API),开发商通过它将人的智能整合到远程过程调用(RPC)。它被用来完成计算机很难完成但人工智能却容易执行的任务,例如写产品描述等。——编者注寻求帮助。在这些市场中,满足特定条件的版主在通过了某项测试之后便有权使用图片,并对这些图片进行描绘和过滤。如今的计算机比较擅长帮我们制作可视化效果。而在将来,随着像谷歌眼镜这样的产品不断演变,它们能更好地帮我们理解实时的可视化信息。

打造最好的可视化效果

要说有哪个行业能更好地理解信息可视化的重要性,那一定是广告行业了。广告行业是为数不多的利用大数据新科技的先锋行业之一。如果对于“图片是一种强大的交流方式”还有任何疑问的话,那么我们只需看看美国公司每年在电视广告上高达700亿美元的花费就知道答案了。正如市场调研公司明略行(Millward Brown)的全球首席分析师奈杰尔·霍利斯(Nigel Hollis)指出的那样,如果不起作用,公司是不会在电视广告上花费那么多钱的。亚马逊土耳其机器人是一个Web服务应用程序接口(API),开发商通过它将人的智能整合到远程过程调用(RPC)。它被用来完成计算机很难完成但人工智能却容易执行的任务,例如写产品描述等。——编者注

霍利斯认为,人们对电视广告的影响感到迷惑是因为他们认为广告商想要他们看了广告马上采取行动,而他们并不会这么做。这也正是他们的错误认识所在。品牌广告的成功并不是呼唤人们立即行动或争论,而是要给人们留下积极的印象来影响人们。霍利斯解释说:“最好的广告是使用图片、朗朗上口的广告词和故事情节将人们的注意力吸引到产品的品牌上面。尤其是将注意力放在那些动人的、容易记住的广告短片的理念上,那些广告冲破了我们的心理防线,播下了影响我们行为的记忆种子。”

事实上,一些广告商还在传送可视化图像时采用了更加先进的方法。他们通过一种叫作“神经营销学”(neuromarketing)的科学方法来判断哪种可视化效果最好。神经营销学使用“功能磁共振成像”(fMRI)和其他科技来观察在面对各种各样广告方式的时候,大脑的哪个部分会兴奋起来。营销人员甚至能通过场景模拟来确定广告放在哪里会产生最好的效果,例如将广告放在广告牌上还是公交车的车身上。

因此,可视化不仅是一种传递大量信息的有效途径,它还和大脑直接联系在一起,并能触动情感,引起化学反应。可视化可能是传递数据信息最有效的方法之一。研究表明,不仅可视化本身很重要,何时、何地、以何种形式呈现对可视化来说也至关重要。

通过设置正确的场景,选择恰当的颜色甚至选择一天中合适的时间,可视化可以更有效地传达隐藏在大量数据中的真知灼见。著名的媒介理论家马歇尔·麦克卢汉(Marshall McLuhan)曾经说过:“媒介即信息。”现在,科学证据证明了在传递信息时环境和传输的重要性。