大数据、数字媒体与计算式的社会科学:可能性与危险
我们在网络中生活。我们经常查看我们的email,在几乎所有的地方打移动电话……用信用卡购物……(和)通过网络社交软件来维持友谊……这些交易留下了可以用来编辑的数据痕迹,使我们得以更好、更全面地解释个人和集体的行为,并潜在地改变了我们对生活、组织和社会的理解。
——Lazer等(2009: 721)
强有力的计算资源和巨大的社交媒体数据库可用性的结合,以前所未有的程度推动了使用机器学习、自然语言处理、网络分析和人口结构测量与人类行为统计方面不断增长的著作。然而,更多的证据指出,现在提供的许多预测和分析都没能真正代表真实的世界。
——Ruths和Pfeffer(2014: 1063)
结构和开放式社会数据的“数量、速度和变化”(Dumbill, 2012: 2)指数级的增长,使如政治科学、社会学、心理学、信息系统、公共健康、公共政策和传播学方面的领域面临独特的挑战:就理解个人和他们与社会体制互动的目的而言,科学家如何能最有效地使用计算工具来分析这些数据,尽管它们可能存在问题。在离散行为、社会表达、个人联系和社会整合方面的信息前所未有的可获得性,提供了对一系列现象的启示,并影响着这些过程——从个人性格到政治行为,从公共舆论到关系形成——尽管存在着代表性和一致性的讨论。也就是说,尽管从社交媒体所获取的数据可能并不能代表总体的全部,那也不意味着它们没有理解那个总体的研究价值。解释这些社交数据的挑战并不限于总体的偏见和调整的内容(Pariser, 2011);它们也扩展到研究实践和个人隐私的伦理,与预测和工程相关的理论和推理的价值,当然,也包括推断合适和严谨模型的应用方面。这个前沿,在某种程度上考虑到了这些可能性和危险,并探讨了大数据时代追求计算式社会科学的研究者所面临的一些关键议题。
首先,我们应该解释一下我们所讨论的计算式的社会科学是在大数据这个具体的子类别下的研究。它是一个社会探讨的研究途径,可以被定义为:(1)大的、复杂的数据库的使用,经常——但并不总是——以兆兆或拍字节来衡量的;(2)经常包括“自然发生”的社交和数字媒体资源,以及其他的电子数据库;(3)计算或算法式的解决方案的使用,以便从这些数据中产生模型和推断;(4)社会理论在许多领域的应用,包括从大众舆论到公共卫生、从政治事件到社会运动分析等方面的研究。
我们强调,在以上定义中的说法“自然发生”,是有特殊重要意义的。社会科学的传统研究工具,即调查和实验,在本质上包括研究者对社会过程的介入,从多种实验者效应中不可避免的参与(例如,无意地以造成他们反应的不同方式对待实验组和控制组的主体),到自我报告/社会可预见性的偏见(例如,调查回答者过度报告好的质量和行为,同时少报不太好的事情的倾向)。大数据的计算式分析在对关键结论的多方法论证上提供了一个友好的参照和潜在的三角论证(Campbell and Fiske, 1959)。然而,至少因为推断、伦理和以上提出的理论等问题,用这种数据进行研究仍然是有挑战性的,但是也因为这些类型数据的获得、存档和分析问题,仍然使用传统数据库的应用方法来处理并不容易。
显然,最近在储存能力、处理能力和分析系统的可获得性方面的提升,从根本上拓展了社会科学家收集和使用这种数据的能力。以前要在一个复杂设备上才能接触到联网的计算核心,现在则可以在办公室一角的一个小服务器里,或是通过一个分配式的计算系统“在云端”储存。社交和电子媒体资源正被心理学家、认知学家和政治及传播学家所使用,以便:(1)对内容和感情进行编码,从而推断主观幸福和个人特征(Schwartz and Ungar, 2015),对新内容的情感程度打分(Soroka et al., 2015);(2)汇集并描画网络,以便理解政治路线(Bode et al., 2015; Freelon et al., 2015),并预测网络关系的出现(Welles and Contractor, 2015);(3)在总统选举辩论(Shah et al., 2015)和校园枪击案(Guggenheim et al., 2015)发生时探讨传统媒体和社交媒体之间的互动。
商业冒险者和学术研究者也在处置社交媒体中大规模的数据干扰问题。这个研究观察了社交媒体使用者在网络环境的变化下的网络行为的结果。例如,Kramer、Guillory和Hancock从传给Facebook使用者新故事的微小的语言变化中获得了以文本为基础的感情传染性的证据。这种研究也通过观察行为的微小改变产生了意义重大并稳健的结论,但是它也导致了那些在未经事先同意情况下作为被干扰目标(或可能是)的人的愤怒。像这样的高调事件,对计算式社会科学怎样操作有着长期的影响。
同样雄心勃勃的是,这些工具和技术也被用来探讨在纵向基础上的全部社交系统(Resnick et al., 2015; Han et al., 2011),将自然语言处理与神经想象力联系起来理解信息的传递(O' Donnell and Falk, 2015),以通过自动过滤系统的使用来产生更有效的健康信息(Cappell et al., 2015)。这种整体性和个人化的信息收集也适用于在数据使用和限制方面不断增长的概念和伦理问题。复杂数据系统的获得和存档——更不用说它们的控制——经常涉及个人身份信息。这导致了在数据隐私和去个人化议题方面的一些反思,尤其是在这个追踪表达和行动不断增长的时代,更要考虑到身体和精神健康方面(Crosas et al., 2015)。就学术理解价值观而言,这种考虑必须被重视,并采用合适的步骤来保护个人隐私,尊重被告知同意的原则。
一 计算式的研究和数据科学
从根本上来说,社会科学各领域的学者们都在就与传统方法、理论构建、正式具体推理相联系的大数据的角色提出疑问。混合式的方法包含或比较了现有的方法,例如手动内容编码或传统调查研究、计算式的系统,例如机器学习或网络绘图等,正在获得基础(Burscher et al, 2015; Park et al., 2015; Zamith and Lewis, 2015)。一些学者综合而另一些学者则对比这些方法,以强调每种方法的长处,尽管每个阵营都倾向于强调它们的互补性。这就要求学者能“驾驭多学科包括传统社会科学、统计和计算机科学方面的技能”(Miller, 2011),也与那些提出要放弃已有的传统方法并代之以数据科学的人形成了鲜明对比。
确实,一些人提出“用海量数据,这种科学方法——假设、模型、检验——正在变得过时”,他们走得太远了(Anderson, 2008)。丰富的数据和算法的研究,例如机器学习,使在许多领域更准确的预测成为可能(Hindman, 2015),尽管经常也缺少理论证实。一些人称赞这些方法允许“使用计算式加工品”的工程,尽管它们可能不能完成实现更深入社会科学理解的目标(Lin, 2015)。这并不是我们完全认同的角度,我们也不赞同大数据将会代替反复调查、实验室试验、临床试验和无关的内容分析法(Anderson, 2008)。
然而,从政治角度而言,即使这些系统式的预测和分析技巧没能直接解决意义重大的社会问题,也确实能提供一些洞察力。关于日常生活海量的社会沟通数据的可获得性——对媒体、政治环境和社会实践的实时互动——对制造内容组织那些数据的评估,增加了对文化(以及亚群体)对话理解的及时沟通的可能性。例如,我们能进行数据挖掘,以通过“挖掘社交媒体”来获得对环境污染模式的理解(Mei et al., 2014),理解通过症状上传来追踪传染性疾病的传播(Khoury and Loannidis, 2014)、挖掘社交数据也能用于干预健康,并更好地了解被传染的亚群体(Barrett et al., 2013)。此外,电子健康记录的推动也创造了培养可获得数据的机会,以便检验“在现实情况下对真实病人进行干预的有效性,干预的安全性和副作用,决定对谁进行最有效的干预”(Hesse et al., 2015)。
换句话说,计算式的研究方法有能力迅速收集和处理大量信息,并服务于公共产品,探讨公共日程。研究者们在这样做时,必须通过处理“垃圾邮件僵尸”来和那些议题误导公民和消费者的内容竞争,以写出对每件事情的评论,从政治候选人的政治简报到旅馆住宿的服务质量。那么,在表达关于社交数据代表性方面的顾虑时,Ruths和Pfeffer(2014)也注意到人类行动解释出现的缺陷和歪曲。其他人也力图在网络环境中找到真实和植入评论的指标(Ott et al., 2011)。获得数据有效性对研究的严重歪曲也必须强调。
当我们认识到,例如,一个推特言论的样本,或者甚至是很多推特言论,并不能像作为术语的公共舆论所暗示的那样代表或可投射到很多个人(Hargittai, 2015),那并不是我们在这里的首要考虑。确实,这些集合甚至不是被更广泛定义的社交媒体(Driscoll and Thorson, 2015)传播中一个可以信赖的内容样本。但是,作为与一个特殊时间的特殊题目相联系的一个感情或行为或扩散的指标,它是一个在公共领域现在可以接触到的、系统和实时分析到的、不断出现的重要的、显著的指标。为了管理和分析这些复杂的数据库,社会科学家正在和数学、统计、工程、计算机科学、信息系统和高通量计算领域的专家合作,并经常使用产业和政府发展的那些工具,以迈出跨学科研究的一步。
二 组织主题和棘手问题
我们是围绕如下五个主题来组织这本文集的,它们代表了这个领域的问题并反映了研究的前沿。
(1)对合作型研究和计算式模型工具的反思,尤其注意预测、隐私和抽样的偏见问题。
(2)探讨作为特征、认知和行为指标的语言和文本,通过自动文本编码和机器学习来获取数据。
(3)对确定人际联系和政治行动的网络联系、信息流和社会集合形式表现的社会联系方面的研究。
(4)考虑到与那些外部因素如传统媒体内容的长期变化相联系的社交媒体的影响和反应的研究。
(5)在互补程序方面的进步,包括大规模数据管理、推荐系统、神经成像和混合研究路径。
正如以上所注意到的,许多额外的主题也包括这些领域和研究。尤其是考虑到:(1)计算式社会科学中收集系统的作用;(2)当对内容抽样时,需要注意到多种平台;(3)传统和计算式方法之间的冲突;(4)对团队研究和跨学科研究的需要;(5)理论和大数据之间的关系。本文的丰富性依赖于我们所选择的这些交集和核心主题,它们是社会科学家所要面对的关键议题。
然而,还有其他更不明显的主题和议题,也从这些主题中引申出来。一个这样的紧急议题是,在一个事实调查中推断统计的使用问题,尽管调查包括从一个更大的总体或一个巨大的社交媒体样本库中抽样的问题。上个星期二产生的一个对每个推特进行的调查可以视为一周数据的一个“抽样”,但是如果用它来定义一个更广泛的总体,它可能并不是一个有意义的随机抽样。考虑到在大部分这种研究中特别大的样本量,几乎每个样本在大数据分析中都是统计显著的(Lohr, 2012)。正因如此,研究者必须谨慎使用推断统计,并认识到“错误发现”的风险——第一类错误,或者是肯定一种并不存在的关系。确实,大样本下不显著的系数推出的结论是有意义的,因为它们获得了传统统计显著性的途径,比起那些构成一个真实的社会数据调查的问题,可能更是一个有问题的议题。
有时,第一类错误的风险看起来很大,理论能提供基本的引导。例如,在Kramer、Guillory和Hancock研究情感传染性的著作中,在那个研究中观察到的效应很小,但在统计上是显著的,部分是统计量的原因。然而,他们认为效应是有意义的,因为对情感传染性进行了解释,回应了现存的理论。所以他们认为,他们的结果不是偶然得到或简单而没有意义的,他们有另一个对一个传统社会互动过程的很好说明——情感传染性——在一个完全独特的社交媒体环境中。在这个方面,我们看到心理学和社会理论对解释计算式结论来说是非常重要的。
一个相关的问题是与总体参数相联系的社交数据的代表性。我们认为,偏差的讨论提出了关于研究总体是什么的问题,并且可以如何来处理偏差。后者对于一个从社交媒体进行情感分析的领域来说尤其重要,它力图代替或替换更有代表性的公共舆论的研究。例如,推特“消防水龙带”是推特的实际领域,所以,如果学者的目的是围绕那个时候的空间动态的话,那么就不存在偏差。相反,一个低回应率的调查是一个公共舆论的有偏样本,尽管它事实上是要代表那个总体。甚至一个高回应率的调查在某种程度上也代表了一个公众的有偏样本。在这两种情况下,存在改正偏差的方法。学者必须理解这些,或者他们至少承认限制他们数据推断的方式。
另外两个议题也在这里收集到的文章中再次出现,并从这些更小的议题中涌现。一个是与大数据对应的理论问题。一些人可能认为大数据意味着理论的终结,而另一些人则认为理论将会通过演绎和推断方法的综合使用来获得(Anderson, 2008; Boyd and Crawford, 2012)。在这些立场中,存在严重的冲突。其中一个阵营认为,比起科学专家慢慢积累知识而言,数据科学和算法系统能提供更快、更深、更准确和可行的结果;而另外一个阵营则为数据解释者的核心作用和大数据分析中理论的基本角色辩护。考虑到一些大数据的收集导致了统计假设检验基本是不相关的,因为权力无所不在,我们认为要使结论有意义,要求好的理论提供一个明确的有优先顺序的预测,否则就不能解释统计检验的有意义的解释。也就是说,我们倾向于站在后者的立场上,但是也能看见前者的价值,尤其是归纳方法。在这本文集中的他人也强调这个同样的议题。
与此相关的是预测和解释的问题。在大数据世界中,许多方法都首先是基于建立解决问题的预测性模型,不管是商业性质、社会还是政治性质的问题。对大数据一些方法相联系的重在预测导向的模型的解释是否有用呢?我们文章很多的贡献者都讨论了预测导向的研究途径,并提出为了预测而预测是可以的,而且如果有必要的话,解释——尤其是因果解释——可以后来再讨论。我们认为,一些只预测的研究途径的结果能提供解释性方法的合理性,并能混合计算式社会科学的两种主要因素——成功的预测和解释模型。例如,当可用数据的宽度允许预测模型在越来越小的方面——极端情况下对个人案例的预测——那么在那些预测模型参数的变化自身也会成为解释和推理的有趣研究对象。两个方向并不需要看来是非此即彼的选择,而至少可以认为是互补的,甚至因为有在个人层次上超级海量的数据,它也指明了以前不可用的理论和研究的新方向。
三 计算式的传播科学
显然,数据科学的时代重新塑造了传播学、政治科学、心理学、社会学和公共卫生的领域。计算式的社会科学,尤其注重大规模数据和社交媒体数据,将会引发研究者的期望和培训上的一些变化,即一些更明晰,一些更不显眼。大部分计算式的社会科学的数据是并且将要成为文本式的,并要求使用自然语言处理的珩磨技术。定量的社会科学家已经习惯了或是通过大规模自我报告式的回答,或是正式工具的评估(例如皮肤电导)所收集到的数字型数据。
现在文本形式的大量核心社交数据,改变了数据获得和浓缩的核心方式,学者将需要慢慢达成新的共识,如对什么构成数据可靠和有效的描述;用来组织那些数据的类型,进入、处理和结构化那些数据的必要工具。尽管传播研究者已经很容易进入这些领域,因为他们长期以来谨慎评估传播内容的历史,一些再工具化将是不可避免的,正如需要与计算机科学家、工程师合作研究的需要一样,也有必要重新培训博士生那些最新和最有利的分析电子形式文本材料的技巧。影视材料对于研究者进行计算式分析来说仍然是一个挑战,但是它也在逐渐受到重视(Shah et al., 2015)。
在计算式社会科学中大部分研究都集中于“文本式数据”,并将传播学领域作为这个不断前进领域的核心,并提出了“计算式传播科学”的兴起。注意到传播学内容——它们是如何被生产的以及它们是如何被回应的——对于这个领域的研究是非常重要的。正如本文集的文章所显示的那样,传播学的研究者处于面对计算式社会科学挑战的前沿,并正在从回答以上问题的不同学者中整合启示和研究方法。
参考文献
Anderson, Chris.2008. “the End of the Theory: the Data Deluge Makes the Scientific Method Obsolete. ”Wired Magazine 16(7): 108-109.
Barrett, Meredith A., Oliver Flumblet, Robert A. Hiatt, and Nancy E. Adler.2013.“Big Data and Disease Prevention: From Quantified Self to Quantified Communities. ”Big Data 1(3):168-175.
Boyd. Danah, and Kate Crawford.2012. “Critical Questions for Big Data: Provocations for a Cultural, Technological, and Scholarly Phenomenon. ”Information, Communication &Society 15(5): 662-679.
Campbell, Donald T., and Donald W. Fiske.1959. “Convergent and Discriminant Validation By the Multitrait-Multimethod Matrix. ”Psychological Bulletin 56:81-105.
Dumbill, Edd.2012. Planning for Big Data. Sebastopol, CA: O' Reilly Media., Inc.
Han, Jeong Yeob, Dhavan V. Shah, Eunkyung Kim, Kang Namkoong, Sun-Young Lee, Tae Joon Moon, Rich Cleland, Q. Lisa Bu, Fiona M. Motavish, and David H. Gustafson. 2011. “Empathic Exchanges In Online Cancer Support Groups: Distinguishing Message Expression and Reception Effects. ”Health Communication 26(2): 185-197.
Khoury, Muin J., and John P. A. Ioannidis.2014. “Big Data Meets Public Health. ”Science 346(6213):1054-1055.
Kramer, Adam D. I., Jamie E. Guillory, and Jeffrey T. Hancock. forthcoming.“Experimental Evidence of Massive-Scale Emotional Contagion Through Social Networks. ”Proceedings of the National Academy of Science.
Lazer, David, Alex Sandy Pentland, Lada Adamic, Sinan Aral, Albert Laszlo Barabasi, Devon Brewer, Nicholas Christakis, Noshir Contractor, James Fowler, and Myron Gutmann, Et Al.2009. “Life in the Network: the Coming Age of Computational Social Science. ”Science 323(5915):721-723.
Lohr, Steve.2012. “the Age of Big Data. ”New York Times, 11 February.
Mei, Shike, Han Li, Jing Fan, Xiaojin Zhu, and Charles R. Dyer.2014. “Inferring Air Pollution by Sniffing Social Media. ”In Advances in Social Networks Analysis and Mining, 534-539. Washington, DC: IEEE Computer Society.
Miller, Greg.2011. “Social Scientists Wade into the Tweet Stream. ”Science 333(6051):1814-1815.
Ott, Myle, Yejin Choi, Claire Cardie, and Jeffrey T. Hancock.2011. “Finding Deceptive Opinion Spam By Any Stretch of the Imagination. ”In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics(ACL 2011), 309-319. Stroudsburg, PA: Association for Computationallinguistics.
Pariser, Eli.2011. the Filter Bubble: What the Internet is Hiding From You. New York, NY: Penguin Press.
Ruths, Derek, and Jürgen Pfeffer.2014. “Social Media for Large Studies of Behavior. ”Science 346(6213): 1063-1064.
责任编辑:彭铭刚