前言
随着信息技术的快速发展,海量的数据已经成为企业最具价值的财富。移动互联网和物联网技术使得信息传播极其迅速,大数据开始蔓延到社会的各行各业,从而影响着人们的学习、工作、生活,以及社会的发展。大数据技术的应用场景也越来越广泛,从市场营销到产品设计,从市场预测到决策支持,从效能提升到运营管理,并且大数据的应用已经从早期的互联网公司开始走向传统企业。
目前,大数据领域正面临全球性的“人才荒”,根据麦肯锡报告显示,2018年,美国市场的大数据人才和高级分析专家的人才缺口将高达19万。此外,美国企业还需要150万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才。目前,国内的大数据人才仅46万,未来3到5年内大数据人才的缺口将高达156万,并且随着时间的推移,人才缺口还会逐渐放大,在很长时间内企业将面临大数据人才严重紧缺状态。
为了满足社会需求,加快大数据人才的培养,2016年教育部先后设置“数据科学与大数据技术”本科专业和“大数据技术与应用”高职专业。截至2018年,我国已有283所本科院校获批大数据相关的本科专业,212所高职院校获批大数据相关的高职专业。尽管各方都意识到了大数据人才培养的重要性,但是到底如何培养好的大数据人才,还是个亟待解决的问题。作者基于2012年至今在高校从事大数据人才培养的实际经验,结合多年从事大数据技术研究和大数据应用开发的实践体会,编写了这本教材。本书围绕着大数据技术和应用问题,由浅入深、循序渐进,以基本概念与实例相结合的方法,对大数据思维、技术和应用做了系统的介绍,包括大数据获取、大数据预处理、大数据存储和管理、大数据批处理、大数据在线处理、大数据挖掘和大数据应用等各个技术环节。
本书不仅可以作为高校大数据相关专业和其他专业的大数据导论课程的教材,也可以作为广大IT从业人员系统了解大数据技术和应用的参考书。作者力图使读者通过学习,能够基本理解各类大数据技术,能够初步使用大数据思维分析问题,能够掌握大数据技术解决实际问题的基本原理,并能够了解大数据技术在各个行业的应用场景。
作为高校的教材,本书在每一个环节都配有与理论学习内容相结合的案例介绍,还有使用Java和Python语言编写的应用实例,使读者能够在大数据平台上通过实践亲身体验大数据处理和分析的过程,从而加快和加深对大数据理论和技术的理解。为了使读者方便检验和复习巩固学习到的知识,本书每章后面都配有丰富的作业。
全书内容主要分为5部分,共12章。
第一部分是大数据基础篇(第1~5章),对大数据思维、大数据技术、大数据平台和大数据应用进行了基本介绍。第1章主要阐述了大数据的产生与作用及大数据思维;第2章对大数据技术和大数据应用进行了基本介绍;第3章介绍了大数据的采集方法,相应的日志采集系统Flume和Scribe,以及网络爬虫工具Nutch和Scapy;第4章介绍了大数据预处理技术,以及数据预处理工具Kettle;第5章对大数据的技术基础进行了描述,并对著名的Google和Hadoop大数据处理系统进行了介绍。
第二部分是大数据存储篇(第6~7章),主要介绍了大数据存储和管理技术,分别讲解了分布式文件存储系统HDFS,以及支持大规模、半结构化海量数据存储的数据库系统HBase。
第三部分是大数据处理篇(第8~10章),主要介绍了大数据处理技术,分别为分布式并发计算批处理模式MapReduce,基于内存的快速处理模式Spark,以及基于实时数据流的实时处理模式Spark Streaming。
第四部分是大数据挖掘篇(第11章),主要对分类、预测、聚类和关联等各类大数据挖掘算法的原理和使用场景进行了描述,并使用Spark MLlib提供的机器学习算法进行了实例讲解。
第五部分是大数据应用篇(第12章),首先,从大数据应用场景横向角度出发,介绍了大数据在各个功能领域的应用场景,包括精准营销、个性化推荐和大数据预测;然后,从大数据应用场景纵向角度出发,介绍了各个行业的大数据应用场景,包括银行、证券、保险、互联网、电信和物流等行业。
采用本书作为教材时,授课教师可以参考下述教学安排。
本书的编写得到了五舟汉云公司研发人员和电子科技大学成都学院教师们的大力支持和帮助,在这里表示感谢。特别感谢赵阳老师在本书编写过程中提出的宝贵建议,感谢五舟汉云大数据小组成员汪雪飞、龚晓宇和杨棋等对书中实例的验证,感谢五舟汉云教育小组成员邓依洁、屈太源、吕姗姗、杨莹和杨燕等为本书提供的校对和制图工作。
编者
2018年6月