1.2.4 数据挖掘与数据分析_大数据技术基础-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

数据挖掘与数据分析都是从大数据中提取有价值信息的常用手段，下面分别介绍。

数据挖掘是指从大数据中挖掘未知且有价值的信息和知识的过程，是提取有价值信息的核心方法，通常需要用到统计学、人工智能、机器学习、深度学习等技术。数据挖掘的基本步骤如图1-5所示。

图1-5　数据挖掘的基本步骤

数据挖掘各基本步骤说明如下。

1）探索性分析：包括数据质量分析和数据特征分析。数据质量分析的主要任务是检查原始数据中是否存在脏数据。在完成数据质量分析后，可以通过绘制图表、计算特征量等方式进行数据特征分析。

2）特征抽取：对某一模式的测量值进行变换，以突出该模式的代表性特征，即将原有特征根据某种函数关系转换为新的特征，新的数据维度要比原来的低。

3）建立模型：根据分析的目标和数据形式，选用合适的机器学习算法，包括分类算法、回归算法、聚类算法等，建立分类预测、聚类分析、关联规则、偏差检测等模型。

4）模型评价：使用绝对误差、均方误差、混淆矩阵等方法对模型进行评价。

深度学习是数据挖掘的常用方法，它能够利用层次化的架构学习数据在不同层次上的表达，从而解决复杂且抽象的问题。

数据分析是利用适当的统计分析方法与工具对收集的数据进行加工、整理和分析，以提取有价值信息的过程。

数据分析与数据挖掘的区别体现在以下几个方面。

● 数据挖掘通常需要通过编程实现，而数据分析则更倾向于借助现有的分析工具进行处理。

● 数据分析要求对所从事的行业有较深的理解，并且能够将数据与自身的业务紧密结合。

● 数据分析侧重于观察数据，而数据挖掘的重点则是从数据中发现知识和规律。

● 数据分析主要采用对比分析、分组分析等方法，通过得到的指标统计量来量化结果，如总和、平均值等。而数据挖掘更侧重于解决分类、聚类、关联和预测4类问题，一般采用决策树、神经网络、关联规则、聚类分析、机器学习等方法进行挖掘，输出模型或规则，并且能够得到相应的模型得分或标签。

在实际开发过程中，通常使用Pig、Hive和Spark等工具进行数据分析，这些工具更侧重于分析决策，可以提供直观的数据查询结果。

针对图数据，本书也会介绍Spark GraphX。Spark GraphX能够以图作为数据模型，用于表达问题并进行数据分析。