第二节 文献回顾
数据是实证经济学的基础、是形成经济指标的背后因素,在宏观经济研究、政策制定、经济理论验证、企业应对市场发展、个人做出经济决策等各领域均有重要作用。如何利用大数据来源渠道丰富、样本海量、更新实时等优势,从用传统统计数据、计量经济方法难以甚至无法处理的数据中获取有用信息和价值,是经济学家们基于大数据方法研究经济的出发点。围绕基于大数据方法研究经济的中文文献目前仍较匮乏,外文文献较多,使用的数据来源极其广泛,包括网络搜索和电子商务、社交媒体、网站、论坛、银行等金融交易、政府纳税记录、城市监控等政府管理数据、GPS定位、卫星灯光图片、智能设备的使用痕迹数据等,数据经过信息提取和特征挖掘后建立经济模型,经过验证后可实时监测、预测、提供政策建议等。Schonberger等(2013)认为大数据应用的核心是寻找变量间的相关关系做出预测,而不是因果关系。目前,有些关于大数据研究经济的文献按照大数据的来源划分为不同类别:搜索数据、社交媒体、网站信息、电子交易数据、政府管理数据等,有些文献按照大数据的内容和结构划分不同类别:网络内容、用户行为、网络结构等。虽然大数据来源、内容、处理方法不一样,但根据经济研究中使用大数据具有的传统数据不具备的特征和研究的目的可以大致归纳为3类:优化传统经济指标或构建其先行指标、构建新的经济预测指标、建立经济变量间的联系,本研究按此类别划分回顾了基于大数据方法研究经济的文献。
在优化传统经济指标或者构建其先行指标方面,大数据有其天然的优势。现有的经济指标如GDP增长率、通货膨胀率、失业率等均由各国政府统计部门通过大量的统计调查、计算后得出,投入大、过程复杂、周期长,且发布往往存在滞后期,很多情况下真实性也难以保障,对政府实时监测经济运行、政策及时制定、企业及时决策、经济研究等均有影响。既然经济指标来自数据,拥有大数据的处理能力后,如何从数据中寻找到关系,利用大数据优化原有经济指标或构建出有经济意义的新指标是众多经济学家研究的重要课题。Cavallo等(2016)从2008年开始在麻省理工学院启动“十亿价格计划”,通过抓取900多个零售商的网站上1500多万种商品的在线价格,计算每日价格指数作为美国、阿根廷等20多个国家每日更新的通货膨胀指数,提供给各国央行和金融机构,并认为以这种方法构建的通货膨胀指数避免了政府在收集、计算和发布时的种种弊端,更接近真实水平,如阿根廷政府公布的2007—2011年的年平均通货膨胀率为8%,但通过在线价格数据计算的CPI超过了20%,远超政府官方数据,但和很多当地经济学家的判断、家庭调查数据的结果吻合。李凤岐等(2017)提出了自动挖掘百度搜索查询指数与经济指标之间关系的搜索预测算法,筛选出具有代表性的查询数据预测经济指标,并以此作为先行指标对我国CPI等宏观经济指标进行了预测。Askitas和Zimmermann(2013)从交通流量反映经济活跃程度的角度出发,用德国收费站记录的月度重型卡车越境数据建立了收费站指数,作为生产指数这一GNP指数先导指标的先行指标,用以现时预测商业周期,并实证了该指数能有效先行反映德国统计办公室官方发布的生产指数。Sutton等(2002),Elvidge等(2007),Henderson等(2012),Mellander等(2013),徐康宁等(2015),范子英等(2016),丁焕峰等(2017)从NASA卫星拍摄的夜间灯光强度数据出发,寻找其与经济活动之间的关系,认为灯光强度可反映经济运行情况,特别是认为灯光亮度与GDP存在非常显著的正向关系,可在一定条件下作为GDP的替代量。Askitas和Zimmermann(2009)通过检验德国月度失业数据和失业相关搜索数据的频率后,认为它们之间具有很强的相关性,网络搜索数据对预测失业率很有帮助。Edelman(2012)利用Monster.com上职位的供应量和求职者的申请数量的变化预测失业率。Amuri和Marcucci(2010),McLaren和Shanbhogue(2011),Vicente等(2015)均采用搜索数据预测了不同国家的失业率,实证验证均取得了较好效果。Kholodilin等(2009)认为由于google搜索数据指标由于数据更新快、覆盖群体广等原因,在预测经济衰退时期美国个人消费指数效果要优于传统指标。沈淑等(2015)根据消费者的行为理论,提出了一种基于LASSO机器学习理论和KPLSR方法的网络大数据对消费信心指数的预测方法。
在构建新的经济预测指标方面,由于大数据比传统数据来源范围广泛、更新及时、内容海量,经济学家得以构建许多具有经济意义的新指标,丰富并强化了对经济的预测能力。Chamberlain(2010)研究发现网络搜索数据和产品零售量间具有正相关性,可通过搜索数据构建产品销售的预测指标。Mclaren(2011)等认为可从网络搜索数据中建立现时经济活动指标,他们用Google Insights for Search数据建立了比政府官方发布更及时的英国住房市场和劳动力市场现时经济指标,并通过样本外检验验证了该系列指标的有效性。Dzielinski(2011),Aastveit等,Iskyan(2016)分别基于Google搜索数据、含有“不确定性”相关词的文章数量测量并预测了宏观经济的不确定性指数。Wu和Brynjolfsson(2009)使用Google搜索数据预测了房地产价格指数。姜文杰等(2016)以均衡价格理论为基础,使用搜索关键词频率百度指数,采用自回归移动平均模型和带搜索项的自回归分布滞后模型研究并预测了上海房价。Choi和Varian(2010)强调Google趋势数据可用于预测当下,而不是预测未来,他们认为从表征用户行为特征的网络搜索数据中可以更早的发现经济变化,通过建立包含相应Google趋势变量的季节性AR模型预测了临近期的经济指标:美国汽车销量、旅行目的地行情、消费信心等,并验证了该方法比传统方法的准确度提高了5%—20%。类似地,Artola等(2015)分别使用传统的由TRAMO估计的最好ARIMA模型、增加了相关Google搜索指数的模型短期预测了由德国、英国和法国去西班牙旅游的人数,发现后者在2012以前的预测精度比前者高42%。许伟(2016)通过结合Google搜索数据和网络新闻情感,构建了基于网络情感和搜索行为的数据挖掘集成模型,在其中加入房地产价格指数时间序列的滞后项,利用支持向量回归SVR模型,实现了对房地产价格指数的预测。Kim等(2015)用社会网络数据和机器学习算法建立了电影票房预测模型,并验证了该模型能有效提高预测水平。
在建立经济变量间的联系方面,大数据覆盖广,各种关系隐藏在表面看似无关的变量数据中,如何通过相关性分析挖掘、建立经济变量间的联系是基于大数据方法经济研究最令人兴奋的主题,它往往能深刻地揭示事物间的内在联系和发展规律,在这一领域的发现往往令人激动,改变人们的传统观点,甚至改变已有理论,某种程度上这也是大数据在经济研究方面本质、核心的意义。Antweiler等(2004),Mittermayer(2004),Das等(2007),Sehgal等(2007),Chen等(2009),Fand等(2009),Gilbert等(2010),Sheng等(2011),Xu等(2012)均研究了财经网站信息、论坛等社交媒体内容反映的投资者情绪等对金融股市的影响。Liu等(2007)用PLSA算法(Probability Latent Semantic Analysis)从博客内容数据中挖掘用户观点和情绪用以预测销售,并用电影数据验证了考虑情感信息的方法预测精度较好。Bollen等(2011)研究了基于Twitter内容的公众情绪是否会影响股市,他们用两种情绪跟踪工具——测量正情绪和负情绪的Opinion Finder、从6个维度量化测量情绪的情绪状态Google画像对每日Twitter内容的公共情绪进行测量,建立公共情绪和股市间的模糊神经网络模型,认为考虑公共情绪的方法能有效提高股市预测。Joseph(2011)研究了在线股票搜索与股票收益等的关系,认为某只股票的在线搜索数据是该只股票的收益及交易量的可靠的预测指标。Bordino(2012)的研究也发现网络用户对纳斯达克上市的股票的日常搜索查询语句的数量与该股票的交易量具有相关性。Moat等(2014)研究了Google和Wikipedia上有关金融的搜索数据和股市运行间的关系,认为从在线搜索数据建立的先行指标能有效预测股市的涨跌。Li等(2016)为研究微观层面上中小企业业绩受和政府、行业、学术界联系的影响,用网络爬虫工具挖掘271家中小型美国绿色食品和制造公司网站的信息数据,从中建立政府、行业、学界的联系对销售增长的面板回归模型,验证了企业和政府、行业、学界的联系对销售有正向影响。Arora等(2016)用网络爬虫工具Wayback Machine从300家美国中小型绿色食品企业网站的归档数据中挖掘企业创新和战略指标。Domenech等(2012)认为企业的经济活动和企业网站的信息有较强联系,通过分析企业网站信息便可以推断出很多企业的经济指标,他们建立了从企业网站数据实时得出网站经济指标到企业经济指标的模型,并用总部在西班牙瓦伦西亚的10000家企业作为样本进行了实证研究。Khadivi等(2016)通过分析Wikipedia使用数据(Wikipedia Usage Trends,WUTs)、构建旅游需求和WUTs间的线性自回归模型,预测了夏威夷的旅游需求,认为该方法提高了预测精度。Chong等(2015)为比较在线促销和在线评论对预测消费者购买产品的影响,基于Amazon.com的数据,建立了产品销量和折扣、免运费、用户好评、差评等变量间的神经网络预测模型,发现上述变量均能影响销售,但用户评论的影响更大。
Schneider等(2016)用词袋模型(Bag-of-Words)自动处理用户评论文本、用随机预测技术降维回归元,基于Amazon.com的用户评论预测了一周后的笔记本电脑的销售情况,认为预测结果要优于没有考虑用户评论的模型。Arenas-Marquez等(2014)对Ciao.com的评论影响的研究了评论者在社会网络中的地位、评论的数量、转发数量等因素对是其评论影响的影响。Li等(2015)从TripAdvisor.com的118000条用户评论数据中探寻用户的潜在旅游偏好以帮助酒店改善服务。Hu等(2012)用统计方法研究了虚假评论对消费者购买的影响,认为约10%的产品购买受到了商家虚假评论的影响。Wang等(2016),Suhara等(2017)通过对APP数据日志的情景分析和协同过滤算法预测了用户使用某些关联APP的意愿。Xiong等(2013)利用信用卡交易序列数据,使用支持向量机分类算法研究了对个人信用的破产的预测。Vlasselaer等(2015)利用RFM(Recency-Frequency-Monetary)模型、客户消费历史、客户和商家的网络关系等提出了一种自动检测在线虚假交易的方法。Dey等(2014)用零售商电子扫描设备记录的数据分析了美国的鲢鱼市场的价格、销量的趋势,根据结果强调了市场上增加附加值等非价格竞争策略的重要性。Kitchin(2014)研究了智慧城市的WIFI、公共交通读卡器等数据在经济社会预测方面的应用。Chou等(2016)研究了基于智能电网大数据进而帮助预测、优化建筑节能、提高能源使用效率的方法。Williams等(2015)等提出了基于手机通信记录数据和GIS地理信息系统数据测量、预测人口流动性的方法。Montoliu等(2013)通过智能手机的位置数据,使用两层聚类算法研究了人们生活中经常所处的位置。Chittaranjan等(2013)使用机器学习算法研究了智能手机数据与五大人格维度的关系,认为可以从智能手机使用数据中挖掘出用户个性,用以改善企业的经营和销售。