第三节 主要研究方法介绍
由于绝大部分大数据原始状态为非结构化数据[Gandomi和Haider(2015)认为95%以上的大数据都是非结构化的],如何处理海量的非结构化数据、从中获取有效信息是经济学家面临的关键问题。与传统经济研究的方法相比,基于大数据方法的特征主要体现在数据抓取和数据分析方面。
一 数据抓取(数据挖掘)
不同于传统上经济学家被动依靠政府、机构发布的结构化数据或者主动对结构化数据操作,基于大数据研究经济首先要解决的是如何主动从不同渠道、海量、不断变动的非结构化数据中提取可直接用于分析的有用数据。目前对数据挖掘认同率较高的表述为从大量非结构化数据集中找到隐藏的信息:将大量数据作为输入,隐藏信息作为过程的输出,整个挖掘过程就是从输入到输出的一个映射。许伟(2016)认为根据数据挖掘的对象不同可分为网络结构挖掘、内容挖掘和应用挖掘:结构挖掘是通过分析网页之间的某个链接及与这个链接相关的网页数和相关对象,进而建立起网络链接结构模型;内容挖掘是通过分类和聚类技术,从页面内容本身提取到有价值的信息;应用挖掘从用户的行为信息中推断用户的特征。
由于来自互联网的大数据主要是记录人们行为的文本,自然语言处理算法(Natural Language Processing)得到大量应用,它是指让计算机像人类一样能读懂人类的文本,从非结构化的文本数据中提取有效信息。目前使用较广泛的NLP算法有:情感分析(Sentiment Analysis,SA)、主题模型(Latent Semantic Analysis,LSA)、潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)、词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、词嵌入(Word Embeddings,WB)、数据匹配算法(Data Matching,DM)等。
数据挖掘的一般过程是(刘涛雄,2015):借鉴抽样估计、人工智能、机器学习的搜索算法、建模技术和学习理论,利用网络爬虫软件通过云计算等分布式并行计算方法从网络抓取原始数据,然后通过探索性数据分析(Exploratory Data Analysis,EDA)和一致性检验清洗数据,过滤大量无用的噪声数据,保留值得加工的信息,最后对剩下内容进行加工提取,转化为一定程度结构化的可用数据,如标准化的时间序列等。数据清理并无规章可寻,实践中的主流数据清理工具有OpenRefine和DataWrangler。Varian(2014)总结了目前主流的用于数据挖掘的开源工具,如表2—1示。
表2—1 数据挖掘工具
二 数据分析
从数据中建模是大数据分析的关键,包括数据集降维、寻找数据间的关系。传统上经济学家大量应用线性和逻辑回归等算法建立数据间的联系,Varian(2014)认为针对大数据分析发展起来的一系列机器学习算法能更有效地处理海量数据问题。目前的大数据建模方法主要有两类:有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning),有监督学习通过建立回归、分类模型,寻找输入数据和输出数据间的关系,根据输入推断输出;无监督学习通过聚类模型等寻找输入数据之间的关系或结构,构建描述数据行为的规则。目前有监督学习算法在经济研究中现时预测和邻近预测中应用更广,包括:决策树(Decision Trees,DT)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial Neural Networks,ANN)、深度学习(Deep Learning,DL)等算法。为解决样本数据过度拟合、维数过高、模型对样本外数据却表现欠优的问题,经济学家提出了添加随机量的集成算法(Ensemble Algorithms,EA)以解决过度拟合和降维问题,这些方法包括自举法(Bootsratp)、装袋方法(Bagging)、提升算法(Boosting)、随机森林(Random Forests)、属于正则化方法的套索算法(Least Absolute Shrinkage and Selection Operator,LASSO)、弹性网络(Elastic Net,EN)、岭回归(Ridge Regression,RR)、贝叶斯方法(Bayesian Methods,BM)、贝叶斯模型平均算法(Bayesian Model Averaging,BMA)、朴素贝叶斯(Naive Bayes,NB)、钉板回归(Spike-and-Slab Regression,SSR)等算法作为对线性回归的补充,在处理面板数据、纵向数据、时间序列数据上,经济学家提出了贝叶斯结构时间序列算法(Bayesian Structure Time Series,BSTS)作为对传统自回归(AR)和平均回归(MR)模型的补充。
为检验数据建模的准确性,经济学家一般把数据分为训练集和测试集,用训练集建立模型,用测试集检验模型,当数据容量足够大时可分为三部分:训练集、验证集合测试集。鉴于大数据复杂特性,经济学家在机器学习中采用K折交叉检验(K-Fold Cross-Validation),数据被划分为K个子集,模型拟合K次,每一次都用K-1个训练集、剩下1个用于预测测试,当每个子集仅有一个观测量时便退化为一次性交叉检验(Leave-one-out Cross Validation)(Blazquez等,2017)。从文献上看,目前阶段经典计量经济学的拟合优度判定系数R2、Hosmer-Lemeshow(HL)拟合优度检验、马洛斯Cp检验(Mallows’ Cp)、赤池信息量准则(Akaike Information Criterion,AIC)、贝叶斯信息量准则(Bayesian Information Criterion,BIC)、偏差和对数似然检验等检验方法仍用于对基于大数据建立模型的检验。