Hadoop大数据开发实战
上QQ阅读APP看书,第一时间看更新

1.1 大数据的学习基础

恭喜您,已经迈出学习大数据的第一步,相信通过您的努力,在不久的将来一定会在大数据领域有所成就。

学习大数据之前,读者先要了解一些基础知识,如果这些基础知识掌握得熟练、牢固和深刻,那么将在后续的大数据学习过程中感到得心应手,也会越来越喜欢钻研和探索层出不穷的大数据新技术,为大数据的后续学习奠定坚实可靠的基础。可以说,这些基础知识的掌握程度,直接关乎是否能够坚持学习大数据。

目前,大数据技术领域80%以上的技术都是运用的Java语言。Java语言自1995年诞生之初就备受青睐,后以迅猛之势发展,现已成为编程者的必备技能之一。今天,虽然计算机领域已有几百种编程语言,但Java语言依然充满了生命力。

从结构上来看,Java语言有3大模块。

(1)Java语言第1个模块是Java Standard Edition(Java SE),也就是Java标准版,它是Java语言最重要、最关键、最能体现Java语言编程能力的模块。Java SE是学习Java语言编程开发的第一步,包含Java语言的编译运行环境JDK(Java Developer Kit)、Java基本数据类型、流程控制、面向对象、I/O流、网络编程、多线程、反射机制、泛型等非常重要的基础开发知识。

(2)Java语言第2个模块是Java Enterprise Edition(Java EE),也就是Java企业版,也称为Java Web。它是在Java SE的基础上构建起来的基于互联网Web应用程序开发的一门语言。Web应用从Web 1.0到Web 2.0得到了飞速的发展,Java Web功不可没,它包含的技术有HTML、CSS、JavaScript、JQuery、JSP开发、Servlet开发、Tomcat服务器、Struts2、Hibernate、MyBatis、Spring和Spring MVC等,这些都是Web开发的主流技术,熟练掌握它们,对大数据技术的学习大有帮助,也有助于大数据可视化、大数据文件系统中的Web接口模块等的学习。

(3)Java语言第3个模块是Java Micro Edition(Java ME),也就是Java微缩版,它适合做一些微型平台上的开发。例如,2G手机中的知名游戏“贪吃蛇”就是用Java ME版本开发的。Java ME也是在Java SE的基础上构建的,但后来Google发布了一款基于移动平台终端的操作系统——Android系统,Java ME因此退出了舞台。

总之,学习大数据技术,一定要先掌握一门操作大数据技术的利器,这个利器就是一门编程语言,比如Java、Python、R等。本书就是以Java语言为基础编写的。

具备了Java SE和Java EE的编程技术之后,还需要掌握一门数据库知识,建议学习MySQL数据库,包括基本概念、表的设计、视图、索引、函数、存储过程等。

掌握以上技术后,还需掌握一门操作系统技术,那就是在服务器领域占主导地位的Linux操作系统,只要能够熟练使用Linux常用系统命令、文件操作命令和一些基本的Linux Shell编程即可。大数据处理的数据是业务系统服务器产生的海量日志数据信息,这些数据都是存储在服务器端的数据,人们常用的操作系统就是在实际工作中安全性和稳定性都很高的Linux或UNIX操作系统。大数据Hadoop本身提供了Linux版本和Windows版本。由于数据一般存储在服务器端,因此我们学习大数据也是选择Linux版本的Hadoop,大家学会了Linux版本,那么Windows版本基本也就掌握了。