理论前沿
设计更好的陷阱,还是理解人类境况:反思社会科学中的大数据现象
摘要:近年来“大数据”崛起,成为一种改变商业、科学和社会的“破坏性力量”。而对大数据及其价值,人们既抱有极大的热情和期盼,也存在质疑。在笔者看来,这种质疑源于对大数据利用目的的根本性混淆:是更好的科学,还是更好的工程?质疑者对摈弃传统数据采集、分析方法,混淆相关、因果关系,建构单一解释力模型等做法提出了批评。然而,基于发展社会科学的考量,这些观点又有存在的价值。但笔者仍然认为,如果要利用大数据革新计算方法以改善效率,所设计的测量指标就应该是客观、公正的。那些听起来科学、有用的说法不一定能够优化工程工艺。厘清了科学与工程之间的异同,也就能够明白并解决围绕大数据产生的诸种论争,从而有助于设计测量贡献率的指标。
关键词:大数据 计算社会科学 机器学习 数据挖掘 日志分析
近年来,“大数据”突然崛起,从技术层面对商贸、科学以及社会的其他方面进行了“破坏性”重塑。在商业领域,谷歌是领头羊,它建构起了一个体量庞大的计算结构,以存储、分析网页数据、成百上千顾客的行为数据(Dean and Ghemawat, 2004)。雅虎则通过投资开源代码软件,把谷歌的这种做法迅速传递到脸谱、推特、灵格斯、亚马逊、易贝以及许多初创企业和其他网络公司。同样,大数据也吸引了老牌科技企业如IBM、微软、甲骨文、英特尔的关注。除了科技企业外,其他组织从沃尔玛到摩根大通,也都希望搭上大数据这艘“邮轮”。
而在物理学尤其是高能物理领域,研究者们已经感受到了科研数据总量、数据分析需求的爆炸(Becla and Wang, 2005)。现在,研究者把大数据研究解读为“第四种范式”(Hey, Tansley and Tolle, 2009),即对理论、实验和模拟的补充。以希格斯玻色子的发现为例,就是一次由理论模型引导的数据驱动尝试。
当然,大数据也给社会科学家带来了“福音”,促进了计算社会科学的发展(Lazer et al., 2009)。一直以来,个体或群体行为都是社会科学研究关注的焦点,从而产生了大量关于人类行为的记录——从社会交往到政治偏好,这对提出假设、建构分析框架、验证假设来说,是充满价值的。在20世纪的大部分时间里,数据采集越来越难,也越来越乏味。20世纪70年代,扎克利煞费苦心地记录下美国一所大学空手道俱乐部34名成员之间的友谊网络结构,以对知识传播与组织冲突问题进行有创意的分析(Zachary, 1977)。十多年前,Ugander等人以Facebook为研究对象,对7.21亿用户的行为进行了描述性分析(Ugander et al., 2011;Backstrom et al., 2012)。而在今天,一切正变得容易,能够通过前人无法想象的海量数据来研究人类行为,且这些记录还有助于社会科学家们更好地理解人类行为的复杂性,如帮助理解人类怎样建立起一种社会关系以及权力、权威在其中的作用。也正是在这种语境下,围绕“大数据如何驱动并影响社会科学研究”展开了激烈的论争。事实总是朝好的方向发展吗?数据治理和数据获取呢?大数据真会重塑知识的本质以及科学活动吗?有人对此持一种普遍的观点,如克劳福德(2011)和白种人的“挑衅”,又如丽萨等人(2014)提出要警惕“大数据自负”——认为大数据是传统数据采集、分析方法的替代者,也认为可以忽略结构有效性等基础性问题。另外,一些“病症”还包括混淆相关关系与因果关系、不重视有解释力的模型等。
本文试图为大数据辩护,并就其运用发表看法。笔者的核心观点是,冲突根源于有关大数据目标的基本混淆。是“更好的科学”——形成针对人类境况的内在认知,还是“更好的设计”——建构更好的策略?笔者认为,如果是后者,即制造更有效率的计算工具,则衡量的指标应该是客观、中立的。即便如此,那些听起来有用的分析,也并不应该成为优化设计的原因。如果我们对这两个目标及其差异有清晰、明白的认识,而这往往在具体分析过程中被忽略了。本文将聚焦于预测人类行为等议题,笔者也坚信,理解不是预测的充分条件。
打个简单的比方,网络相亲服务及其记录数据,有助于社会学家更好地理解为何如此多的人聚集在一起。但这些服务是以营利为目的的,所以纳税、客户才是他们所要考虑的首要问题。值得注意的是,尽管我们希望有所助益,但当前有关吸引问题的学术研究成果是否推动了网络相亲的配对算法,看起来并不那么重要了。类似地,仅仅为了研究目的而批评商人对成员、活动数据的“垄断”,显然也是值得商榷的。
当然,在深入讨论之前,有必要严格限定笔者观点的适用范围。在本文中,笔者首先想要说明的是社会媒体、网络用户的行为。因为在大多时候,这些行为对健康和金融的影响微不足道,因而是低风险的。但是,在电子病历、智慧城市等物联网、在线教育等领域,大数据的应用非常普遍。尽管本文的部分论述围绕公共卫生干预、学习分析等问题而展开,但在具体表述方面又存在特殊且微妙的不同。更有甚者,对于那些高风险的应用而言,在干预展开之前需要更多的关注。不过,因为这些已经超越了本文的讨论范围,故不予深究。
一 研究背景
(一)大数据的几个观点
在商业研究中,大数据是一种企业应该保存所有业务数据并通过挖掘数据以形成更加科学的管理决策的理念。回溯数十年前,大数据也可以被称为商业智慧等。这样看来,大数据包装不过是“新瓶装旧酒”,因为很多企业这么做已经很久了。现在,这类行为被概括为“数据科学”,工作人员则是“数据专家”。
更确切地说,相较于20世纪90年代,可以通过三个主要趋势来了解当代社会活动。
第一,对巨量数据的需求有一个爆炸性增长。过去,企业更愿意搜集那些具有明显商业价值的数据,如采购规模、合同信息等;现在,除了此类数据外,企业还会搜集顾客的购买行为数据,表现为顾客浏览过哪些网站、点击了哪些链接等。社交媒体的出现,用户生成的内容以及鼓励此类互动带来的好处,进一步扩大了生产、采集数据的规模,而这些数据正好有助于计算社会科学的发展。
第二,企业处理巨大存量数据的分析技术正变得更加复杂。以往,绝大多数信息将会进行在线分析处理(OLAP),包括达成共识、过滤、聚集、立体全物化等基本步骤和环节,如“告诉我过去6个月内,东南地区出售给女性顾客的小型装饰品数量”。这就是描述性研究,目的在于形成一份可供执行人员阅读的最终报告。今天,数据专家们也对预测型分析感兴趣,但他们经常通过建构一个机器学习模型来预测顾客的购买行为,例如“哪种类型的定向广告更能够吸引女性消费者的关注从而刺激她们购买小饰品”。当把这类模型套用到数据产品上时,他们能够采取某些干预措施如备忘录来影响消费者的购买行为。
第三,开源软件在今天的生态系统中发挥着越来越重要的作用。十年前,没有一个可靠的、开放的、分布式平台有能力对海量数据进行分析。现在,以MapReduce应用为基础(Dean and Ghemawat, 2004)的开源数据平台Hadoop居于大规模数据分析生态系统的中心位置,四周分布着HBase、Pig、Hive、Spark、Giraph等商业系统。并且,得益于该系统在初创公司、成熟企业中的运用,Hadoop系统的重要性已经获得了肯定。这样广泛的适用性证明了其拥有良好的信誉,但开源结构的最大影响在于大数据的民主化运用,尤其是在与云计算配合使用时。而为了推进云服务的发展,需要许多组织或企业合理建设并完善基本的硬件设施,如此就可以把有关字节数据的分析控制在适度的成本范围之内。现在,很多数据专家都利用这些工具进行数据分析,不同的是他们会进行适当的改造。
(二)大数据科学与机器学习
对于众多用户导向型互联网企业而言,一个健康的工作流程应该是一个有效的循环:首先,生产出一个成品;其次,数据专家通过观察并分析顾客的行为,提出改善、优化产品的意见;最后,培育出一个更加自愿、更加庞大的用户群体,从而生产出更多的用户行为数据进行分析,即回到原点。
企业建立数据科学团队,其最终目的就是希望通过干预并影响、塑造顾客的某种消费行为,购买自家生产的产品,实现商业盈利。打个比方,用户登录并点击店铺首页就很容易实现网络零售商吸引顾客和赚钱的目标,因为:在网页上面,商品更容易被找到;降低了购物车的废弃率,即用户在购物车中添加了商品但是不付账的行为;顾客会提交商品评论;等等。又如,评论帖子、故事、微博、朋友等,能够吸引用户的兴趣,从而提升社交网络的用户忠诚度,壮大其用户规模。
通过指标进行客观测量能够检验这些方式是否取得了效果。例如,作为一个测量指标,点选联结率用于记录用户点击率与选择结果关系的比率。据此,我们通过测量一个网页的点选联结率,就能够知道用户的评论类型、产品的主要优势等。对于社交网络来说,不论是活跃的用户数,还是互动持续的时间、花在同一网站的总体时间等都是非常重要的测量指标。而对网络零售商而言,重要的指标则包括总收入、人均收入以及其他。
指标建构的关键是什么?英国著名物理学家开尔文勋爵(原名威廉·汤姆森)说过,“测量就是了解”。要彻底了解这一箴言,就需要知道后面一句:“如果不能测量,就不能提升。”换句话说,一旦确定了某个指标,它就能在客观上决定哪个计算模型更具优势。例如,通过点选联结率,我们能够对一系列内容推荐算法进行比较,从而知道对界面进行何种更新能够吸引更多的访问量,了解哪类问候语能够带来更多用户注册,也明白哪种类型的手机对用户提出警告,迫使他们登录并进行更新。当然,找出正确的指标经常是一个挑战,界定不清楚的指标则容易导致反向刺激,从而对企业的成功产生负面影响。一个简单的例子就是,短期收益会侵蚀长期增长(Kohavi et al., 2012)。尽管如此,合适的指标依然能够对成功和失败进行清楚的界定。
指标能够帮助组织对替代品进行比较,在网络环境下,这些比较经常通过A/B测试来实施(Kohavi, Henne and Sommerfield, 2007; Kohavi et al., 2009)。尽管在控制性实验的具体过程中存在诸多细微差别(Kohavi et al., 2012),总体设想却非常简单。客户被随机分配到两个不同的组(有时称“篮子”):对照组,针对被试者不采取任何举措、维持现状;控制组,针对被试者及其行为进行新的评估。然后,建立指标体系并对搜集到的数据进行统计测量,以确定在两种情况下是否在统计上存在差异。如果存在,就意味着控制组优于对照组。通过这种方法,数据专家能够比较不同推荐算法、不同页面设计、不同数据流检测、不同标语信息等的效能。许多企业都使用了A/B检测系统,允许数据专家“介入”并通过一种更为流畅的方式来实施上述实验(Tang et al., 2010):这意味着因为公司连续实施A/B循环测试的能力受限,抑制了提供网络服务的速度,所以在当前的竞争环境中充斥着对软件结构的不满与质疑。
如前所述,预测性分析经常用来描述对数据产品的操作性认知。首先,我们试图弄明白客户是怎么行动的;其次,我们按照指标的要求来干预他们的行为;最后,A/B测试将结束这个过程,以最终确定我们是否成功了。机器学习已经变成了建立干预的候选工具。尽管机器学习的复杂性难以把握并超出了本文的讨论范围,但不同的技术在基于隐藏数据进行预测时却遵循着同一个理念,即输入和输出端都要遵循统计规则,后者正是社会科学家们所谓的独立多样性。因此,通过“训练”,机器学习本质上就是通过总结过去来预期未来。举一个非常简单的例子,由文本内容、原始IP地址等组成的垃圾邮件关键词库能够帮助筛选垃圾邮件,其中那些有用的特征就被称为“强信号”,意味着我们的预测与历史存在强因果关系。从这些案例中可以发现,在现代模型中,统计规则变得不可或缺,并能够利用邮件进行“前无古人”的预测。
今天,网络环境中充斥着机器学习技术。它保护我们的收件箱免遭垃圾侵扰,定制个性化网页、内容以迎合客户需求,证明支付网站的合法性,提醒我们见到了老朋友,并向我们推荐类似的商品,等等。机器学习技术之所以广泛适用,要归功于大数据:用户每打开某个链接、点击某个广告,或发表一条评论,就会以数据的形式被记录并存储起来,以服务于对未来的预测。研究人员发现,所有的事情正变得公平,模型效应伴随着训练数据的增加而上升(Banko and Brill, 2001; Brants et al., 2007; Halevy, Norvig and Pereira, 2009)。因此,机器学习将有助于大数据计算的良性循环:更好的模型给出更高质的建议并吸引更多的用户,同时生产出更多的训练数据以进一步改善、优化模型。当然,这样的发展不可能永远发生,我们最终会达到一个衰竭的终点。但是,即便如此,数据规模依然是一个提升模型质量的重要因素。
二 更好的科学与更好的工程学?
本文认为,围绕大数据而展开的一系列论争,根源于对“科学”和“工程学”的认知混淆。所谓“科学”,即理解人的行为并解释社会现象;所谓“工程学”,即加工更有效率的、可用明确的指标衡量的计算标准器(Computational Artifacts)。笔者相信,针对大数据产生的诸多质疑应该源自对这两者差异的模糊认识。就本文而言,我们也许可以说,理解尽管有潜在的助益,但并不是预测的必要条件。也就是说,大数据工程向我们提供了一个无须理解潜在社会现象却能预测人类行为的工具。
为了深入讨论,我们有必要回顾一下部分针对大数据的质疑。
(1)相关性并不意味着因果关系。大范围的数据分析发现不同现象间的关系,但却无法告诉我们这些关系是否有价值。更进一步地讲,如果我们对不同变量间的关系进行反复观察,就能够提高发现假关系的概率。
(2)大数据不能替代科学方法。大数据无法替代一个建构完美的假设,也无法有效描述并说明特殊数据采集方法之间的细微差异。
(3)通过大数据技术捕捉到的信号,只是工具性产物,缺乏校正与核实,与客观真实之间存在差距。
毫无疑问,这些论述都是可信的,也告诉了我们什么才是“好的科学”。的确,大数据技术能够帮助我们找到关系,却无法帮助我们发掘因果关联。大数据不是假设导向型科学发现的替代品,数据采集系统的特殊性决定了应该采用哪种类型的数据采集技术。尽管如此,笔者依然坚持认为,如果目的在于设计一件更有效的计算衡量器,上述论争都是没有意义的。这样听起来也许有点啰唆,但如果目标在于建构一种特殊的指标,我们要做的唯一事情就是完善它。
为了更好地理解科学与工程学之间的差异,我们试图从以下几个方面展开讨论。
(1)全球平均气温与海盗数量之间呈负相关关系;
(2)国家之间,诺贝尔奖得主数量与人均巧克力消费量之间存在关联(Messerli, 2012);
(3)云层与股市波动之间存在关联。
对于第一种假设,大多数人认为毫无意义。作风严谨的气象学家也不会把海盗数量作为构建气象模型的一种变量,因为后者的目的在于更好地理解并说明半球、海洋、大陆、人类活动之间的关系,而这些模型得出的预测当且仅当它们能够对气象现象本身进行解释时才是重要的。如果无法对潜在的物理机制提出令人满意的解释,再精确的预测都是毫无科学价值的。
第二个例子取自著名期刊《新英格兰医学》(Messerli, 2012)上的一篇论文。它原本只是个笑话,但论文作者试图描绘出一种英国机制:“可可中所广泛包含的黄烷醇……看起来似乎有助于延缓甚至停止伴随年龄而发生的衰老”。因此“巧克力消费理论上能够发展认知能力,包括个人和群体”。不论初衷如何,至少该论文已经引起了一项严肃的、对上述假设进行反驳的实验研究(Maurage, Heeren and Pesenti, 2013)。站在工程学的立场,这些论证尽管不那么科学、可信,但如果某人想构建一个预期情报模型的话,这些又不那么重要了。
第三个案例源自最近的一次回顾事件,数据驱动自然语言处理技术如机器翻译的先锋Peter、Bob等也参与其中。他们的重大贡献始于20世纪80年代末90年代初的IBM,后来他们离开IBM建立了世界上最为成功的对冲基金。在论及与预测相关的信号问题时,布朗认为,“很明显,当巴黎是阴天时,法国的股票就陷入低谷;当巴黎晴天时,法国的股票就走势高涨。在米兰、东京、圣保罗、纽约等城市,这一定律同样适用”。他并没有被这种无法说明的关系所干扰,反而进一步阐明,“我们拥有数学、物理学方面近90名博士,长时间盯着这些现象或指标。我们还有10000个处理器,能够在现象处理方面发挥重要作用”。很明显,挖掘潜在的因果机制不是布朗的首要目的。他总结道:“这样说也许很无情。要么你的模型比别人的更优秀、更能赚钱,要么你能解决别人无法解决的问题。”
通过最后一个案例,笔者很好地刻画了科学与工程学之间的对比。相较于气象学家对物理现象的解释,数据专家的分析工作类型显然更接近于对冲基金的营利行为。出于优化测量指标的目的,机器学习如交叉验证、特征选择、规范化等标准技术在测量指标的决定方面更为重要。因此,更好的做法就是让机器学习算法“做它该做的事情”,针对传统模型,它比人类的直觉更敏感。事实上,机器学习的标准程序颇具激进现实主义特征,也是多种特征的混合物,还具有动态化、离散化以及其他特征,此外它还能进行自主分类。
不过话又说回来,运行一个模型类似于预测过去。这解释了A/B测试的起源:如果一种关系并不存在,外在的表达非常混乱,对未来的预测也就将走向失败。类似弗里德曼“自然不能被戏弄”的宣言,真实的用户行为才是“终极裁判”。当然,这是理论上的A/B验证技术(详见Kohavi et al., 2009/2012)。为什么云层会影响股票价格?谁知道;真正重要的事情是,谁关心呢?如果要求我们非常严肃地看待“工作”,即对未来进行准确的预测,如对冲基金的盈利预期等,我们将毫无偏见地运用它,即便这是无法解释的。
笔者并不否认解释模型的有效性,而旨在简单说明,模型并不是万能的,对于加工一个计算标准器以完成一项明确的任务来说,模型就不是必要的。简而言之,理解不是预测的必要条件。事实上,对看起来真实的连接进行编码以及整合人类与机器的力量,才是最有效的机器学习方式。举一个理想的例子,假设数据专家发现了全球平均气温与在线销售规模之间的关系,像云层案例一样,他只需要简单地在模型中输入这些特征,就能达到其他目标。在小幅度提升效率方面,机器学习算法也许能够提供一个较为微观的观察视角。或者反过来,数据专家在挖一个浅坑:一个可能的解释是,当天气变冷时人们更愿意待在家里,所以网络销售数额增加了。可能的推论是,这种解释更符合北美、欧洲各大城市的情况,并且仅仅发生在北半球的冬季。这也就意味着,该模型还有更多具有强解释力的信息。当然,有关天气与消费行为的关系也可适用于其他主题、场景,如天气与竞选战略之间的关系等。由此可以认为,解释现象的方法与精确预测的方法能够形成互补,并得到更好的结果。
尽管如此,我们不会因为无法搞清某一信号的意思而把它排斥在模型之外,以促使机器学习算法发挥作用,并通过A/B测试来决定最终是否成功了。尽管这种方法不很理智,但人类学习的历史充满了成功的案例,即完成某种任务的能力先于我们对重要的、统治性原则的理解与认同。打个比方,蒸汽机、动力飞行等技术的出现,就先于我们对热力学、空气动力学等知识的获取。莱特兄弟的飞天之举,就远远先于结构工程师们对静态的、动态的着陆机制的解释。奥地利遗传学家孟德尔能够预测到下一代豌豆的颜色,但他并不具有分子基础学的知识。实用主义者就认为,只要今天我们能够设计并加工一些有用的东西,明天我们就能理解它。
相较于“挖一个更好的陷阱”、关注提升效率的计算标准器,多数社会科学家希望通过大数据技术的使用来理解人类行为的复杂性,如个人如何建立并维系一种社会关系,以及保障一种影响或权力的持续性。当然,这种努力与前者截然不同,因为对于知识创造而言,我们试图建构并优化的指标既非必要,也是不足的。作为说明,笔者对两个同样基于推特但目标不一的研究进行了比较。2010年,Romero和Kleinberg研究了混合社会信息网络中的直接闭环过程。他们的工作以社会网络中著名的三合一闭环过程为依据(Rapoport, 1953; Granovetter, 1973),因为社会网络主要由间接图表构成。此外,他们还试图把研究直接延伸到信息网络。以信息复制为基础,他们设计了一个研究三合一闭环过程的机制,以把他们的研究与偏好选择联系起来(Albert and Barabasi, 2002)。恰恰相反,有人对推特的“关注谁”服务——一个为用户提供建议并日均生产成千上万条数据的产品体系进行了一次描述性研究(Gupta et al., 2013)。值得注意的是,尽管两项研究以推特跟踪图为基础讨论边界建构问题,并使用相同的评价标准,但在目标维度却存在巨大差异。Romero和Kleinberg使用“闭合率”指标来验证他们的链接形成模型,从而推进我们对直接封闭过程的认知。在“关注谁”服务中,点击率是一个非常重要的指标,被广泛应用于A/B测试中,以测量哪种算法更优。并且,在“关注谁”算法中使用的部分指标,受到结构主义的影响,这会得到社会学家的赞同。例如,有人就认为“关注谁”服务中运用了随机漫步算法。然而,多数指标没有任何社会学原则作为依据,也更类似于前面所讨论的“云层”指标。“关注谁”服务试图平衡科学与工程学,这是有益的,因为大量观点的产生就基于社会科学知识。不过,两者的根本目标并不冲突,都旨在增加推特关注图表的密度,以最终促进用户间更加频繁的交流。相反,Romero和Kleinberg的研究对科学的关注更多。一旦差异变得清晰,评估质量的标准也更加明确:就前一个案例而言,模型真能反映出用户的网络行为吗?在后一个案例中,我们已经设计出了相关的测量指标吗?
让我们重新回到Lazer等人(2014)的争论:“作为一种隐性假设,大数据傲慢是指对传统数据搜集与分析技术的替代而非补充”,“数据规模也并不意味着可以忽略数据测量、结构验证、真实性、独立性等基础问题”。笔者认为这是一次针对稻草人的不公平攻击,就像没有经验的数据科学家会非常严肃地呼吁,我们应该公开知道某件事情的所有信息,利用大数据的目的也仅仅在于加深对某个现象的认知。受过良好训练的数据专家会严肃对待相关关系与因果关系之间的异同。他们知道,只有建构起一个可验证的假设,才能有效解释现象与结果之间的因果关系。大量的数据挖掘技术以及其他自下而上弄明白“数据说了什么”的努力,指导了假设的提出而不是解释模型的建构。除了不公正的批判外,上述引证正在获得认可:大数据是传统技术的补充而非替代。
笔者相信,多数有关大数据的争论源于在科学、工程学二分之间的混淆。通过讨论计算技术在语言方面的使用,能够更好地看清楚该问题。很明显,存在两种截然不同的努力方向:一是为了完成语音识别、机器翻译等任务,设计一个处理自然语言的计算机系统;二是充分利用计算模型来理解人类在语言方面的优势,如利用扩音器数量来模仿话语变化、利用模型来揭示对音位的感知,等等。或许是因为这些研究由大量分散的研究团队来实施,所以很少混淆研究目标。联想到谷歌公司的做法,为了发展机器翻译功能,他们在太字节网络数据的基础上建构起了语言统计模型(Brants et al., 2007)。几乎很少有人会对此提出批评——没有人能够阅读如此多的内容,故该做法不是一个描述人类进行翻译的有效模型。尽管上面的说法在事实上完全正确,但多数人依然认为这种论证只是不合理的推断。在人类的语言翻译能力和设计完成同一任务的计算系统之间,不存在任何关联。
基于同样的逻辑,让我们重新回顾一下是什么决定了人类会采取大规模的集体行为。在最近刚刚编辑好的一份报告或论文中,著名计算生物学家史蒂芬·萨尔兹堡(Steven Salzberg)把谷歌流感趋势的失败(Ginsberg et al., 2009)归因于这样一个事实,即普通人并不真正理解流感病毒的复杂性,当他们在网络上搜索有关流感的相关信息时,并不是真的已经患病了。在笔者看来,尽管萨尔兹堡有关疾病复杂性的判断是可靠的,但他所提出的质疑没有触及问题的核心;问题的关键不在于公众的认知,而在于是否存在能够帮助人们及早探查疾病和公共健康的外部表征。因此,衡量谷歌流感趋势成功与否的唯一重要的指标就是,它是否对未来(及相关成本)进行了准确的预测。对此,2014年Lazer等人已经论及了几种缺陷,但他们也承认,“一旦把谷歌趋势与其他最接近真实的数据联合起来,就能发掘出更大的价值……比如,把谷歌流感趋势与延迟的疾病防控中心数据整合起来……我们就能够持续地改进并提升单个谷歌流感趋势或疾病防控中心数据的精确性及有效性”。这也正是笔者在本文中所试图提出的关键。当然,一方面,我们应该利用所有能够得到的特征,包括从传统资源中挖掘出来的数据;另一方面,我们也不能因为无法完全理解或对其价值持怀疑态度,而简单地低估某个事物。
三 结语
本文将以考察Lazer等人(2014)的另一个质疑结尾,即表现大数据的诸多外在信号缺乏透明度。如果我们把这些符号视为科学设备运行的结果,我们应该能够看到其缺少标准、可信度不高等。打个比方,谷歌流感研究就没有完全披露利用哪些搜索项来观测搜索量;更进一步,谷歌搜索的算法是在不断变化的,这将影响到信号本身。当然,谷歌能够自证其价值,所以真正需要质疑的是谁有机会接触到这些数据。2011年,博伊德和克劳福德就提出了类似的观点。
“数据鸿沟”问题由来已久。自有文字记载伊始,苏美尔人就通过泥板文书(clay tablets)来记录重要信息,通过查阅国王档案中的这些文字,我们会发现社会已经出现了等级分化,如在信息获取方面存在不对等,有的能够获得信息,有的则不能。非常清楚的是,大数据加剧了这种分化。举个例子,早在中世纪,欧洲人口中的一小部分就已经先于他人接触到书本了。
尽管在一个理想的世界中,研究人员能够很容易地获取各种信息,但其塑造现代竞争环境的逻辑并不简单。例如,可获得的API指数受到使用准则的限制,推特限制了速率,从而使大规模采集变得不那么容易。尽管如此,在了解数据共享、整合的重要性方面,学术研究人员要给予他们的工业同事更多信任。诸多案例中出现的隐私,仇恨与冷漠并没有导致犹豫的发生,后者仅是一个竞争优先权的事实,如多数企业文化不会鼓励额外的责任,也就意味着根本不会有动力去帮助研究人员满足数据需求。然而,当公司走向成熟时,它们一般会变得越发具有公共意识,履行公共责任,向研究人员的推特数据授权计划就是明证。
为了使讨论变得更有价值,笔者提出了两个假设。首先,学术与工业伙伴之间的合作提供了一条获取有价值数据的渠道。然而,一种有意义的协作关系的建立,需要来自两个团队的持续投入:笔者花了两年时间研究推特,以构建一种双赢关系。大量研究人员把假期花在了谷歌、雅虎、脸谱等平台上,这有助于他们从事研究和发表论文,所以数据的获取成为可能。在专职研究人员缺少的情况下,那些在工厂打暑假工的学生就成为沟通国内学术机构与企业组织的桥梁,这在今天经常会对学生的研究产生持续的影响。科研部门智力支持的不足意味着企业渴望招募最好也是最聪明的员工,同时他们也明白,实习生在某种意义上是终身雇佣的前奏。
其次,即便缺乏与组织间的直接合作,大多有意义的工作依然能够完成。笔者将从工程学和科学的角度进行缜密的论述。工程学的一个重要面向,就是利用不可靠部件加工有用部件的能力。尤其特别的是,许多软件工程关注实践抽象,且这只有通过设计好的接口才能实现。在一个服务导向的体系结构内,包含了一条建构巨型体系的普通路径,但这种服务并不真实。为什么不能用同样的手段来对待大数据信号呢?如果这些信号是有用的,即便是一个黑箱,它也应该被揭示出来。这凸显了持续刺激与测试的重要性,我们能够判断哪个信号停止了工作,并能够将其从模型中移除。
站在科学的立场,大数据符号潜在的不可靠性成为一个值得研究的问题。许多科学条例都包含使用复杂仪器的内容,所以相关研究有助于形成目录,以适度使用这些设备。事实上,在把发明对向天空之前,伽利略就为望远镜的持续改进开启了先河。那么,为什么同样的想法不能运用到大数据设备当中呢?如果GFT缺少透明度和实用性,推特就认为,我们为什么不寻找一种更加容易维护的选择性关联呢(Paul and Dredze, 2012)?如果发现推特的API指数有太多限制而无法重构关于特定主题的认知,我们能够设计出一种基本方法以最大限度地完成有限的工作吗(Ruiz, Hristidis and Ipeirotis, 2014)?在社交媒体中精确地描述一个现象的能力,将受到大数据分析战略怎样的影响呢(De Choudhury et al., 2010)?这些以及其他相关研究,对理解大数据及其分析技术的不足、推进知识创新具有批判性价值。
笔者相信多数针对缺少数据获取渠道的投诉,实际上是缺少获取数据的便利渠道。许多研究者想要的往往是访问某个网站、下载某个数据并立即着手研究。在某些学科中,这是可能的,如通过利用加利福尼亚大学的优势,欧文开发了机器学习存储库。不过,在利用社交媒体数据方面,这是不真实的幻想。数据采集反映出了所有经验研究尤其是人类行为的完整部分。笔者相信,上述讨论揭示了一个富有成效的、能够克服数据获得障碍的议程。
意识到科学与工程学二分非常关键,有助于定位大数据研究,尤其是在把它与社会科学研究联系到一起时。研究者基于制定标准的背景不同,将能够非常清楚、明确地判断,“理解人类境况”和“挖一个更好的陷阱”,哪个才是他们工作的目标。
参考文献
Albert, Réka, and Albert-László Barabási.2002. “Statistical Mechanics of Complex Networks. ”Reviews of Modern Physics 74: 47-97.
Backstrom, Lars, Paolo Boldi, Marco Rosa, and Johan Ugander.2012. “Four Degrees of Separation. ”In Proceedings of the 3rd Annual ACM Web Science Conference(WebSci 12), 33-42, Evanston, IL.
Banko, Michele, and Eric Brill.2001. “Scaling to Very Very Large Corpora for Natural Language Disambiguation. ”In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics(ACL 2001), 26-33, Toulouse, France.
Becla, Jacek, and Daniel L. Wang.2005. “Lessons Learned from Managing a Petabyte. ”In Proceedings of the Second Biennial Conference on Innovative Data Systems Research(CIDR 2005), Asilomar, CA. Boyd, Danah, and Kate Crawford.2011. Six Provocations for Big Data. Paper Presented at Oxford Internet Institute's“A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. ”21 September, 2011.
Brants, Thorsten, Ashok C. Popat, Peng Xu, Franz J. Och, and Jeffrey Dean.2007.“Large Language Models in Machine Translation. ”In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 858-67, Prague, Czech Republic.
Brown, Peter, and Bob Mercer.2013. “Oh, Yes, Everything's Right on Schedule, Fred. ”Transcription of a Discussion at the EMNLP 2013 Workshop on Twenty Years of Bitext. Available from http://cs.jhu.edu/~post/bitext.
Dean, Jeffrey, and Sanjay Ghemawat.2004. “MapReduce: Simplified Data Processing on Large Clusters. ”In Proceedings of the 6th USENIX Symposium on Operating System Design and Implementation(OSDI 2004), 137-50, San Francisco, CA.
De Choudhury, Munmun, Yu-Ru Lin, Hari Sundaram, K. Selçuk Candan, Lexing Xie, and Aisling Kelliher.2010. “How Does the Data Sampling Strategy Impact the Discovery of Information Diffusion in Social Media? ”In Proceedings of the 4th International AAAI Conference on Weblogs and Social Media(ICWSM 2010), 10-17, Washington, DC.
Ginsberg, Jeremy, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant.2009. “Detecting Influenza Epidemics Using Search Engine Query Data. ”Nature 457: 1012-1014.
Granovetter, Mark S.1973. “The Strength of Weak Ties. ”American Journal of Sociology 78(6):1360-1380.
Gupta, Pankaj, Ashish Goel, Jimmy Lin, Aneesh Sharma, Dong Wang, and Reza Zadeh.2013. WTF: The Who to Follow Service at Twitter. In Proceedings of the 22nd International World Wide Web Conference(WWW 2013), 505-14, Rio de Janeiro, Brazil.
Halevy, Alon, Peter Norvig, and Fernando Pereira.2009. “The Unreasonable Effectiveness of Data. ”IEEE Intelligent Systems, 24(2):8-12.
Hey, Tony, Stewart Tansley, and Kristin Tolle.2009. “The Fourth Paradigm: Data-intensive Scientific Discovery. ”Redmond, WA: Microsoft Research.
Kohavi, Ron, Alex Deng, Brian Frasca, Roger Longbotham, Toby Walker, and Ya Xu.2012. “Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained. ”In Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD 2012), Beijing, China.
Kohavi, Ron, Randal M. Henne, and Dan Sommerfield.2007. “Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO. ”In Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD 2007), 959-67, San Jose, CA.
Kohavi, Ron, Roger Longbotham, Dan Sommerfield, and Randal M. Henne.2009.“Controlled Experiments on the Web: Survey and Practical Guide. ”Data Mining and Knowledge Discovery 19(1):140-181.
Lazer, David, Ryan Kennedy, Gary King, and Alessandro Vespignani.2014. “The Parable of Google Flu: Traps in Big Data Analysis. ”Science 343(6176):1203-1205.
Lazer, David, Alex Pentland, Lada Adamic, Sinan Aral, Albert-László Barabási, Devon Brewer, Nicholas Christakis, Noshir Contractor, James Fowler, Myron Gutmann, Tony Jebara, Gary King, Michael Macy, Deb Roy, and Marshall Van Alstyne.2009.“Computational Social Science. ”Science 323(5915):721-723.
Maurage, Pierre, Alexandre Heeren, and Mauro Pesenti.2013. “Does Chocolate Consumption Really Boost Nobel Award Chances? The Peril of Over-interpreting Correlations in Health Studies. ”Journal of Nutrition 143(6):931-933.
Messerli, Franz H.2012. “Chocolate Consumption, Cognitive Function, and Nobel Laureate. ”New England Journal of Medicine 367(16):1562-1564.
Paul, Michael J., and Mark Dredze.2011. “You Are What You Tweet: Analyzing Twitter for Public Health. ”In Proceedings of the 5th International AAAI Conference on Weblogs and Social Media(ICWSM 2011), 265-72, Barcelona, Spain.
Rapoport, Anatol.1953. “Spread of Information Through a Population with Socio-structural Bias: Ⅰ. Assumption of Transitivity. ”Bulletin of Mathematical Biophysics 15(4):523-533.
Romero, Daniel M., and Jon Kleinberg.2010. “The Directed Closure Process in Hybrid Social-information Networks, with an Analysis of Link Formation on Twitter. ”In Proceedings of the 4th International AAAI Conference on Weblogs and Social Media(ICWSM 2010), 138-45, Washington, DC.
Ruiz, Eduardo, Vagelis Hristidis, and Panos Ipeirotis.2014. “Efficient Filtering on Hidden Document Streams. ”In Proceedings of the 8th International AAAI Conference on Weblogs and Social Media(ICWSM 2014), Ann Arbor, MI.
Tang, Diane, Ashish Agarwal, Deirdre O'Brien, and Mike Meyer.2010. “Overlapping Experiment Infrastructure: More, Better, Faster Experimentation. ”In Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD 2010), 17-26, Washington, DC.
Ugander, Johan, Brian Karrer, Lars Backstrom, and Cameron Marlow.2011. “The Anatomy of the Facebook Social Graph. ”arXiv: 1111.4503v1. Available from http://arxiv.org/pdf/1111.4503.pdf.
Zachary, Wayne W.1977. “An Information Flow Model for Conflict and Fission in Small Groups. ”Journal of Anthropological Research 33(4):452-73.
责任编辑:彭铭刚