智能与数据重构世界
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 大数据的云计算平台

当前世界高市值的公司,如苹果、亚马逊、微软、谷歌、腾讯、阿里巴巴和Facebook在很大程度上依靠的是中心化数据的价值。因此,数据被认为是基础性的战略资源和21世纪的“钻石矿”。但是,要想快速准确地挖掘大数据的价值,必然面临以下挑战。①实时性。数据收集速度正在逐渐趋于实时(如用户与网页交互活动的点击流数据、移动设备上的实时定位数据),同时数据分析可以对人们所处的环境产生即时影响,甚至左右人们的决策。数据价值不是固定不变的,非实时分析结果会大大降低大数据的价值。如果要处理Facebook每天新产生的300TB数据,假设一台机器每秒钟可以处理50MB数据,则共需要6×220秒或1747小时,显然一台机器不能做到实时处理。但是如果用73台同样的机器来处理这些数据,则可以在24小时内处理完。这说明大数据只能用多机并行的方式处理,这样才能有效压缩时间,满足实时应用的需求。②分布式存储。当采用分布式并行处理大数据时,传统的数据库技术很难满足大数据存储和分析的要求,因为简单地在各处理地点复制大数据库,必然会导致存储效率低下。但是如果在每个处理地点只存储部分数据,则在数据更新频繁的情况下,如何保障各地点的数据一致是一个新的挑战。

云计算(Cloud Computing)是一种分布式计算平台,其通过网络来拥有大量可配置的计算资源(如网络、服务器、存储、应用软件)共享池,给用户提供动态易扩展且通常为虚拟化的资源。它采用按照使用量付费的模式,提供可用的、便捷的、按需的网络访问,用户只需要投入很少的管理工作,就可以快速获得计算资源。因此,云计算技术是一种应对大数据实时计算和高效存储两大挑战的有效方法。在云计算系统中,数据存储在不同的位置,并由云系统底层软件汇集在一起;同时,并行云计算处理单元对大数据进行有效分析,得到有用的内容。

1.2.1 云计算的服务形式

如图1-3所示,云计算包括以下三个层次的服务。

(1)基础设施即服务(Infrastructure-as-a-Service,IaaS)。客户端用户通过互联网向云服务器(如华为云、阿里云)请求计算机的基础设施资源(如主机、存储和网络硬件)服务,以便利用这些资源运行应用程序。

(2)平台即服务(Platform-as-a-Service,PaaS)。PaaS将软件研发的平台作为一种服务,也可以叫中间件。利用中间件进行云计算应用的开发工作,可以大大节省时间和成本。

(3)软件即服务(Software-as-a-Service,SaaS)。它类似于传统的顾客服务器运行方式,即它通过互联网来提供软件,用户无须购买软件,而是向提供商租用软件(如Googledoc)来管理企业的经营活动。PaaS是SaaS模式的一种应用。但是,PaaS主要是面向云计算平台开发人员的,而SaaS则是面向最终用户的。有了PaaS,SaaS应用开发,如软件的个性化定制开发的速度可以大大加快,而且性能更好。

img

图1-3 微软云计算参考架构

1.2.2 云计算的服务特点

如图1-4所示,云计算包括以下五个服务特点。

(1)按需自助。消费者根据自己的需求,向云计算平台申请且自动获取资源,如服务器时间、网络和存储,而不必与服务提供商接触。

img

图1-4 云计算的五个服务特点

(2)广泛的网络访问。无论何种客户端(移动电话、平板电脑、笔记本电脑和个人工作站),都可以通过标准机制访问云计算平台。

(3)资源池化。因为云服务提供商的资源分布在不同的位置,当用户需求提交后,云计算平台会将不同的物理和虚拟资源动态地分配和再分配,但用户通常不能掌控或了解资源的具体位置。也就是说,多租户/消费者可以同时使用云计算平台资源,而无须知道也无法知道所使用的资源的位置。

(4)快速弹性。用户的资源需求是动态变化的,因此云计算平台必须相应地提供或释放计算资源,以匹配等量的需求。弹性分配能力使消费者觉得无论何时何地都可以获得无限资源。

(5)可度量服务。云计算平台的资源使用(如存储、带宽和活跃用户账号数)可以被监视、控制及报告,并向服务提供商和服务使用者提供透明度,同时,云系统会自动控制和优化资源的使用。

除了上述五个服务特点,云计算还存在安全风险特性:一方面,云计算平台可能遇到很多外来攻击[6];另一方面,云计算服务当前垄断在民营企业手中,而它们仅仅能够提供商业信用。一旦商业用户使用私人机构提供的云计算服务,其安全信息就会暴露给云计算服务提供商,从而有可能被云计算服务提供商内部恶意使用,如2018年3月发生的Facebook泄露用户信息事件。因此,政府机构、银行、医疗机构等,需要慎重选择云计算服务,或者采用私有云服务。

1.2.3 大数据云计算环境

从功能上看,云计算平台相当于传统的计算机和操作系统,其具有并行运算能力的软件系统将大量的硬件资源(如CPU、GPU等)虚拟化后再进行分配使用。用户先将数据通过存储层存储下来,然后根据需求建立数据模型,通过数据分析获取相应的价值。大数据要求高效处理海量数据,但单台计算机常常难以胜任,幸亏云计算可以提供强大的数据并行计算和分布式计算能力,能够优化大数据涵盖的数据范围。因此,在技术上,大数据必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术;在经济上,如果互联网应用的客户群体不确定、系统规模不确定、系统投资不固定,云计算平台可为数据处理提供一种灵活且经济可行的方式。

随着各公司不断采用云计算平台来满足数据处理的需要,传统数据中心向云计算平台转变,云数据中心正成为新的企业数据存储库及计算资源的底层,支撑着上层的大数据处理。同时,市场也会对大数据实时交互式的查询效率和分析能力提出更高的技术需求,迫使云计算实现技术上的改进、创新以应对市场需求,所以,未来大数据和云计算始终处于相辅相成、不断发展的状态。