第一节 引言
随着互联网、计算机、智能设备的高速发展,人类活动产生的记录数据呈爆炸性增长,数据成为一种重要资源,如何从不断增长的海量数据中挖掘、分析出传统数据和手段无法得到的信息成为国内外政府、企业、学术界近年来关注的热点。自1997年Cox和Ellsworth(1997)、Weiss和Indurkhya(1997)分别从存储和计算方面提出大数据概念以来,随着认识的不断加深,人们对大数据的理解一直在发展:Laney(2001)提出了“3V”,即大量(Volume)、高速(Velocity)、多样(Variety),后来拓展到“4V”,增加了价值(Value),Bello-Orgaz(2016)又提出“5V”,增加了真实(Veracity)。
由于大数据和网络、传输、存储、计算的天然联系,起初大数据的发展和应用主要集中在计算机等自然科学领域,经济学实证研究仍然基于以传统统计理论为基础的计量经济方法和结构化统计数据。但随着技术的不断进步和成熟,大数据拥有的样本海量、实时、数据非结构化等传统统计调查数据无法比拟的特征的实现逐渐成为可能,经济学领域基于大数据方法开展的研究活跃起来,经济学家们在通过大数据分析建立新的或完善已有经济指标、利用实时数据建立现时预测模型、预警经济、分析政策影响、使用大数据验证经济理论等方面做了许多工作,如Akkitas等(2009)用google搜索数据预测失业率,Bollen等(2011)通过测量Twitter上文本内容蕴含的情感指标预测经济,Cavallo等(2013)通过收集大型零售商网站的每日价格更新数据实时计算了阿根廷的通货膨胀率,Bok等(2017)使用实时数据和动态因子模型建立了纽约联储银行现时预测模型以预测GDP增速。
基于大数据方法的经济研究与传统计量经济研究方法相比有许多新的特征,由于大数据具有的“5V”特征,数据的采集、清洗、分析、使用等均有别于传统的方法。一是基于大数据方法的数据来源和渠道增多,涵盖了信息搜索数据、网络交易数据、网上信息发布、社交媒体数据、智能设备使用产生的数据如位置信息、交通流量监控、卫星灯光数据等,有主动产生的数据,也有被动留下的痕迹,一定程度上对经济学家依靠政府、组织、企业等机构发布数据、设计调查问卷获取数据的传统方法做了有力补充,极大拓展和方便了经济学家的数据来源。二是为处理海量的半结构化、非结构化数据,从茫茫数据中发现经济关系,基于大数据方法的经济学研究中使用了与传统计量统计回归不同的方法,人工智能、机器学习算法如决策树、支持向量机、神经网络、深度学习等算法被引入经济学中处理数据,经济学与计算机、网络、信息技术的联系空前紧密。三是从方法论的角度,基于大数据方法研究经济面临的样本数量和传统方法相比不在一个数量级上,某种程度上大数据方法是在总体范围上建立模型,而传统模型建立在抽样数据基础上,基于大数据方法将有别于传统方法的参数估计和假设检验。
可以预见,任何基于数据分析的学科与大数据的联系将越来越紧密,经济学研究也不会例外。在目前阶段,虽然大数据概念已经提出二十多年,但经济学中真正意义上使用大数据不过是近10年来的事情,基于大数据方法研究经济在某种程度上仍然是较新的、非主流的领域,国内目前关于基于大数据研究经济的文献综述很少,本研究系统地梳理了国内外主流文献中近年来基于大数据方法研究经济的文献,以形成脉络清晰的文献综述,并根据主要文献中采用的经济研究中大数据的获取、处理流程,归纳总结出目前基于大数据研究经济的一般方法和研究方向,提出了目前基于大数据研究经济面临的困难,并对大数据在经济学中的应用做了展望。