1.2.4 数据挖掘与数据分析
数据挖掘与数据分析都是从大数据中提取有价值信息的常用手段,下面分别介绍。
1.数据挖掘
数据挖掘是指从大数据中挖掘未知且有价值的信息和知识的过程,是提取有价值信息的核心方法,通常需要用到统计学、人工智能、机器学习、深度学习等技术。数据挖掘的基本步骤如图1-5所示。
图1-5 数据挖掘的基本步骤
数据挖掘各基本步骤说明如下。
1)探索性分析:包括数据质量分析和数据特征分析。数据质量分析的主要任务是检查原始数据中是否存在脏数据。在完成数据质量分析后,可以通过绘制图表、计算特征量等方式进行数据特征分析。
2)特征抽取:对某一模式的测量值进行变换,以突出该模式的代表性特征,即将原有特征根据某种函数关系转换为新的特征,新的数据维度要比原来的低。
3)建立模型:根据分析的目标和数据形式,选用合适的机器学习算法,包括分类算法、回归算法、聚类算法等,建立分类预测、聚类分析、关联规则、偏差检测等模型。
4)模型评价:使用绝对误差、均方误差、混淆矩阵等方法对模型进行评价。
深度学习是数据挖掘的常用方法,它能够利用层次化的架构学习数据在不同层次上的表达,从而解决复杂且抽象的问题。
2.数据分析
数据分析是利用适当的统计分析方法与工具对收集的数据进行加工、整理和分析,以提取有价值信息的过程。
数据分析与数据挖掘的区别体现在以下几个方面。
● 数据挖掘通常需要通过编程实现,而数据分析则更倾向于借助现有的分析工具进行处理。
● 数据分析要求对所从事的行业有较深的理解,并且能够将数据与自身的业务紧密结合。
● 数据分析侧重于观察数据,而数据挖掘的重点则是从数据中发现知识和规律。
● 数据分析主要采用对比分析、分组分析等方法,通过得到的指标统计量来量化结果,如总和、平均值等。而数据挖掘更侧重于解决分类、聚类、关联和预测4类问题,一般采用决策树、神经网络、关联规则、聚类分析、机器学习等方法进行挖掘,输出模型或规则,并且能够得到相应的模型得分或标签。
在实际开发过程中,通常使用Pig、Hive和Spark等工具进行数据分析,这些工具更侧重于分析决策,可以提供直观的数据查询结果。
针对图数据,本书也会介绍Spark GraphX。Spark GraphX能够以图作为数据模型,用于表达问题并进行数据分析。