大数据技术原理与应用(第2版)
上QQ阅读APP看书,第一时间看更新

1.8 大数据与云计算、物联网

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。为了更好地理解三者之间的紧密关系,下面将首先简要介绍云计算和物联网的概念,再分析云计算、大数据和物联网的区别与联系。

1.8.1 云计算

1.云计算的概念

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。

云计算包括3种典型的服务模式(见图1-7),即IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。IaaS将基础设施(计算资源和存储)作为服务出租,PaaS把平台作为服务出租,SaaS把软件作为服务出租。

图1-7 云计算的服务模式和类型

云计算包括公有云、私有云和混合云3种类型(见图1-7)。公有云面向所有用户提供服务,只要是注册付费的用户都可以使用,比如Amazon AWS;私有云只为特定用户提供服务,比如大型企业出于安全考虑自建的云环境,只为企业内部提供服务;混合云综合了公有云和私有云的特点,因为对于一些企业而言,一方面出于安全考虑需要把数据放在私有云中,另一方面又希望可以获得公有云的计算资源,为了获得最佳的效果,就可以把公有云和私有云进行混合搭配使用。

可以采用云计算管理软件来构建云环境(公有云或私有云),OpenStack就是一种非常流行的构建云环境的开源软件。OpenStack 管理的资源不是单机的而是一个分布的系统,它把分布的计算、存储、网络、设备、资源组织起来,形成一个完整的云计算系统,帮助服务商和企业内部实现类似于 Amazon EC2 和 S3 的云基础架构服务。

2.云计算的关键技术

云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。

(1)虚拟化

虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。

虚拟化的资源可以是硬件(如服务器、磁盘和网络),也可以是软件。以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。

Hyper-V、VMware、KVM、Virtualbox、Xen、Qemu等都是非常典型的虚拟化技术。Hyper-V是微软的一款虚拟化产品,旨在为用户提供成本效益更高的虚拟化基础设施软件,从而为用户降低运作成本,提高硬件利用率,优化基础设施,提高服务器的可用性。VMware(威睿)是全球桌面到数据中心虚拟化解决方案的领导厂商。

近年来发展起来的容器技术(如Docker),是不同于VMware等传统虚拟化技术的一种新型轻量级虚拟化技术(也被称为“容器型虚拟化技术”)。与 VMware 等传统虚拟化技术相比,Docker 容器具有启动速度快、资源利用率高、性能开销小等优点,受到业界青睐,并得到了越来越广泛的应用。

(2)分布式存储

面对“数据爆炸”的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。GFS(Google File System)是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用的需求。GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。GFS还支持GB或者TB级别超大文件的存储,一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里。HDFS(Hadoop Distributed File System)是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型,文件一旦创建、写入并关闭了,之后就只能对它执行读取操作,而不能执行任何修改操作;同时,HDFS是基于Java实现的,具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容。

谷歌公司后来又以GFS为基础开发了分布式数据管理系统BigTable,它是一个稀疏、分布、持续多维度的排序映射数组,适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点,可在廉价PC服务器上搭建起大规模存储集群。HBase是针对BigTable的开源实现。

(3)分布式计算

面对海量的数据,传统的单指令单数据流顺序执行的方式已经无法满足快速数据处理的要求;同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求,因为晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律已经开始慢慢失效,CPU处理能力再也不会每隔 18个月翻一番。在这样的大背景下,谷歌公司提出了并行编程模型MapReduce,让任何人都可以在短时间内迅速获得海量计算能力,它允许开发者在不具备并行开发经验的前提下也能够开发出分布式的并行程序,并让其同时运行在数百台机器上,在短时间内完成海量数据的计算。MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数——Map和Reduce,并把一个大数据集切分成多个小的数据集,分布到不同的机器上进行并行处理,极大提高了数据处理速度,可以有效满足许多应用对海量数据的批量处理需求。Hadoop开源实现了MapReduce编程框架,被广泛应用于分布式计算。

(4)多租户

多租户技术目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能定制。

3.云计算数据中心

云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。

谷歌、微软、IBM、惠普、戴尔等国际IT巨头,纷纷投入巨资在全球范围内大量修建数据中心,旨在掌握云计算发展的主导权。我国政府和企业也都在加大力度建设云计算数据中心。内蒙古提出了“西数东输”发展战略,即把本地的数据中心通过网络提供给其他省份用户使用。福建省泉州市安溪县的中国国际信息技术(福建)产业园的数据中心,是福建省重点建设的两大数据中心之一,由惠普公司承建,拥有5 000台刀片服务器,是亚洲规模最大的云渲染平台。阿里巴巴集团公司在甘肃玉门建设的数据中心,是我国第一个绿色环保的数据中心,电力全部来自于风力发电,用祁连山融化的雪水冷却数据中心产生的热量。贵州被公认为我国南方最适合建设数据中心的地方,目前,中国移动、联通、电信三大运营商都将南方数据中心建在贵州。2015年,整个贵州省的服务器规模为20余万台,未来规划建设服务器规模200万台。

4.云计算的应用

云计算在电子政务、医疗、卫生、教育、企业等领域的应用不断深化,对提高政府服务水平、促进产业转型升级和培育发展新兴产业等都起到了关键的作用。政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型。教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标。中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。

5.云计算产业

云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构(见图1-8),产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。

图1-8 云计算产业链

硬件与设备制造环节包括了绝大部分传统硬件制造商,这些厂商都已经在某种形式上支持虚拟化和云计算,主要包括Intel、AMD、Cisco、SUN等。基础设施运营环节包括数据中心运营商、网络运营商、移动通信运营商等。软件与解决方案供应商主要以虚拟化管理软件为主,包括IBM、微软、思杰、SUN、Redhat等。IaaS将基础设施(计算和存储等资源)作为服务出租,向客户出售服务器、存储和网络设备、带宽等基础设施资源,厂商主要包括Amazon、Rackspace、Gogrid、Gridplayer等。PaaS把平台(包括应用设计、应用开发、应用测试、应用托管等)作为服务出租,厂商主要包括谷歌、微软、新浪、阿里巴巴等。SaaS则把软件作为服务出租,向用户提供各种应用,厂商主要包括 Salesforce、谷歌等。云安全旨在为各类云用户提供高可信的安全保障,厂商主要包括IBM、OpenStack等。云计算交付/咨询/认证环节包括了三大交付以及咨询认证服务商,这些服务商已经支持绝大多数形式的云计算咨询及认证服务,主要包括IBM、微软、Oracle、思杰等。

1.8.2 物联网

物联网是新一代信息技术的重要组成部分,具有广泛的用途,同时和云计算、大数据有着千丝万缕的紧密联系。

1.物联网的概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

从技术架构上来看,物联网可分为四层(见图1-9):感知层、网络层、处理层和应用层。每层的具体功能见表1-8。

图1-9 物联网体系架构

表1-8 物联网各个层次的功能

下面给出一个简单的智能公交实例来加深对物联网概念的理解。目前,很多城市居民的智能手机中都安装了“掌上公交”APP,可以用手机随时随地查询每辆公交车的当前到达位置信息,这就是一种非常典型的物联网应用。在智能公交应用中,每辆公交车都安装了 GPS 定位系统和3G/4G网络传输模块,在车辆行驶过程中,GPS定位系统会实时采集公交车当前到达位置信息,并通过车上的3G/4G网络传输模块发送给车辆附近的移动通信基站,经由电信运营商的3G/4G移动通信网络传送到智能公交指挥调度中心的数据处理平台,平台再把公交车位置数据发送给智能手机用户,用户的“掌上公交”软件就会显示出公交车的当前位置信息。这个应用实现了“物与物的相连”,即把公交车和手机这两个物体连接在一起,让手机可以实时获得公交车的位置信息,进一步讲,实际上也实现了“物和人的连接”,让手机用户可以实时获得公交车位置信息。在这个应用中,安装在公交车上的 GPS 定位设备就属于物联网的感知层;安装在公交车上的 3G/4G 网络传输模块以及电信运营商的3G/4G移动通信网络属于物联网的网络层;智能公交指挥调度中心的数据处理平台属于物联网的处理层;智能手机上安装的“掌上公交”APP属于物联网的应用层。

2.物联网关键技术

物联网是物与物相连的网络,通过为物体加装二维码、RFID 标签、传感器等,就可以实现物体身份唯一标识和各种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

(1)识别和感知技术

二维码是物联网中一种很重要的自动识别技术,是在一维条码基础上扩展出来的条码技术。二维码包括堆叠式/行排式二维码和矩阵式二维码,后者较为常见。如图 1-10 所示,矩阵式二维码在一个矩形空间中通过黑、白像素在矩阵中的不同分布进行编码。在矩阵相应元素位置上,用点(方点、圆点或其他形状)的出现表示二进制“1”,点的不出现表示二进制的“0”,点的排列组合确定了矩阵式二维条码所代表的意义。二维码具有信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作等良好特性,已经得到了广泛的应用。

RFID 技术用于静止或移动物体的无接触自动识别,具有全天候、无接触、可同时实现多个物体自动识别等特点。RFID技术在生产和生活中得到了广泛的应用,大大推动了物联网的发展,我们平时使用的公交卡、门禁卡、校园卡等都嵌入了 RFID 芯片,可以实现迅速、便捷的数据交换。从结构上讲,RFID是一种简单的无线通信系统,由RFID读写器和RFID标签两个部分组成。RFID标签是由天线、耦合元件、芯片组成的,是一个能够传输信息、回复信息的电子模块。RFID读写器也是由天线、耦合元件、芯片组成的,用来读取(或者有时也可以写入)RFID 标签中的信息。RFID使用RFID读写器及可附着于目标物的RFID标签,利用频率信号将信息由RFID标签传送至RFID读写器。以公交卡为例,市民持有的公交卡就是一个RFID标签(见图1-11),公交车上安装的刷卡设备就是 RFID 读写器,当我们执行刷卡动作时,就完成了一次 RFID 标签和RFID读写器之间的非接触式通信和数据交换。

图1-10 矩阵式二维码

图1-11 采用RFID芯片的公交卡

传感器是一种能感受规定的被测量件并按照一定的规律(数学函数法则)转换成可用信号的器件或装置,具有微型化、数字化、智能化、网络化等特点。人类需要借助于耳朵、鼻子、眼睛等感觉器官感受外部物理世界,类似地,物联网也需要借助于传感器实现对物理世界的感知。物联网中常见的传感器类型有光敏传感器、声敏传感器、气敏传感器、化学传感器、压敏传感器、温敏传感器、流体传感器等(见图1-12),可以用来模仿人类的视觉、听觉、嗅觉、味觉和触觉。

图1-12 不同类型的传感器

(2)网络与通信技术

物联网中的网络与通信技术包括短距离无线通信技术和远程通信技术。短距离无线通信技术包括ZigBee、NFC、蓝牙、Wi-Fi、RFID等。远程通信技术包括互联网、2G/3G/4G移动通信网络、卫星通信网络等。

(3)数据挖掘与融合技术

物联网中存在大量数据来源、各种异构网络和不同类型系统,如此大量的不同类型数据,如何实现有效整合、处理和挖掘,是物联网处理层需要解决的关键技术问题。今天,云计算和大数据技术的出现,为物联网数据存储、处理和分析提供了强大的技术支撑,海量物联网数据可以借助于庞大的云计算基础设施实现廉价存储,利用大数据技术实现快速处理和分析,满足各种实际应用需求。

3.物联网的应用

物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用,具体如下。

● 智能交通。利用RFID、摄像头、线圈、导航设备等物联网技术构建的智能交通系统,可以让人们随时随地通过智能手机、大屏幕、电子站牌等方式,了解城市各条道路的交通状况、所有停车场的车位情况、每辆公交车的当前到达位置等信息,合理安排行程,提高出行效率。

● 智慧医疗。医生利用平板电脑、智能手机等手持设备,通过无线网络,可以随时连接访问各种诊疗仪器,实时掌握每个病人的各项生理指标数据,科学、合理地制定诊疗方案,甚至可以支持远程诊疗。

● 智能家居。利用物联网技术提升家居安全性、便利性、舒适性、艺术性,并实现环保节能的居住环境。比如,可以在工作单位通过智能手机远程开启家里的电饭煲、空调、门锁、监控、窗帘和电灯等,家里的窗帘和电灯也可以根据时间和光线变化自动开启和关闭。

● 环保监测。可以在重点区域放置监控摄像头或水质土壤成分检测仪器,相关数据可以实时传输到监控中心,出现问题时实时发出警报。

● 智能安防。采用红外线、监控摄像头、RFID等物联网设备,实现小区出入口智能识别和控制、意外情况自动识别和报警、安保巡逻智能化管理等功能。

● 智能物流。利用集成智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力(如选择最佳行车路线,选择最佳包裹装车方案),从而实现物流资源优化调度和有效配置,提升物流系统效率。

● 智能电网。通过智能电表,不仅可以免去抄表工的大量工作,还可以实时获得用户用电信息,提前预测用电高峰和低谷,为合理设计电力需求响应系统提供依据。

● 智慧农业。利用温度传感器、湿度传感器和光线传感器,实时获得种植大棚内的农作物生长环境信息,远程控制大棚遮光板、通风口、喷水口的开启和关闭,让农作物始终处于最优生长环境,提高农作物产量和品质。

● 智能工业。将具有环境感知能力的各类终端、基于泛在技术的计算模式、移动通信技术等不断融入工业生产的各个环节,大幅提高制造效率,改善产品质量,降低产品成本和资源消耗,将传统工业提升到智能化的新阶段。

4.物联网产业

完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等环节(见图1-13),具体如下。

● 核心感应器件提供商。提供二维码、RFID及读写机具、传感器、智能仪器仪表等物联网核心感应器件。

● 感知层末端设备提供商。提供射频识别设备、传感系统及设备、智能控制系统及设备、GPS设备、末端网络产品等。

● 网络提供商。包括电信网络运营商、广电网络运营商、互联网运营商、卫星网络运营商和其他网络运营商等。

● 软件与行业解决方案提供商。提供微操作系统、中间件、解决方案等。

● 系统集成商。提供行业应用集成服务。

● 运营及服务提供商。开展行业物联网运营及服务。

图1-13 物联网产业链

1.8.3 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。云计算最初主要包含了两类含义:一类是以谷歌的GFS和MapReduce为代表的大规模分布式并行计算技术;另一类是以亚马逊的虚拟机和对象存储为代表的“按需租用”的商业模式。但是,随着大数据概念的提出,云计算中的分布式计算技术开始更多地被列入大数据技术,而人们提到云计算时,更多指的是底层基础IT资源的整合优化以及以服务的方式提供IT资源的商业模式(如IaaS、PaaS、SaaS)。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。下面总结一下三者的联系与区别(见图1-14)。

图1-14 大数据、云计算和物联网三者之间的关系

第一,大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。

第二,大数据、云计算和物联网的联系。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。