数字化科研:e-Science研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 e-Science概述

1.1 e-Science出现的必然性分析

1.1.1 生产力发展的需要

科学研究是人类认识自然、改造自然的一项重要活动。科学研究的结果在推动社会发展、人类进步的过程中有着非同寻常的作用。在19世纪、20世纪,人类社会的科学研究活动取得了巨大成就。但是,科研活动的开放度明显不够,在科研过程中,科学家之间的信息交流极其匮乏。在这种情况下,不但无法共享彼此的成果、传播科研经验,更为严重的是出现了许多重复性劳动。比较典型的是,曾经有许多不同的人几乎在同一时间内各自独立的做出了相同的成果。同时,对于一些高难度、大规模的研究,由于缺乏相关的资源或条件,依靠传统的科学研究手段往往会受到诸多制约。如需要有大规模军队参与才能完成的项目,或者是需要在一些人类根本就无法进入的环境中进行实验,包括超高温、超低温环境。

科学问题的空前复杂化是科学技术发展进程中面临的又一个难题。科学研究对象已不再是简单的孤立系统,而是涵盖更大的范围、横跨多个学科。时至今日,科学研究的前沿正微观与宏观这两个层面上向着更为广阔的领域前进。无论是微观粒子、宏观宇宙、染色体、基因,还是航天工程、全球气候、生态环境等问题,都已经令人类的研究达到一个更为复杂深奥的程度。

1.1.2 共享理念的推动

“交流”与“共享”是科学研究永恒的主题。网络革命性地改变了科学研究交流与共享的方式,为科学研究的充分共享与交流提供了极大的发展空间,将交流、合作与共享推广到科学研究活动本身乃至贯穿于整个科学研究过程之中,标志着科学研究共享时代的全面到来——科学家群体共享的对象不仅包括传统的数据、资料、信息,更增加了科学家的智慧与劳动以及科学仪器设备的共享。

1.科学数据共享的需要

科学数据是科学研究得以顺利进行的核心资源,已被人们视为是一种战略资源。而科学数据共享问题作为科学发展政策的研究起源于发达国家,经过多年的发展,现在已成为信息社会中科技发展的一项重大方针。随着计算机与新一代Internet的迅猛发展,科学研究的信息共享出现新的格局。以英国为例,它所提出了e-Science计划,目标之一就是要以网格(Grid)为基础设施实现科学数据的共享。通过充分发挥高性能的网络和计算能力,科学家个体和用户在获取信息时,不需知道所获取的数据来自何方、是通过哪一台计算机的运转而得,就可得到科学研究所需的数据。当然,由于数据是在共享的理念下被构建、存储以及操作,所以,这些数据往往是跨部门、跨地区的;如果有双方或多方协议的许可,这些数据也可以是跨国的。

在信息化时代,科学数据共享是推动科学技术可持续高速度发展的驱动力,并已成为一个国家综合国力的衡量指标之一。它作为学术研究课题被提出始于1979年5月。目前,我国正在加大力度推进科学数据共享。2002年11月,科技部徐冠华部长主持了以科学数据共享为主题的第196次香山科学会议,这在一定程度上标志着我国科学数据共享将进入一个新的发展阶段。

2.科学仪器设备共享的推动

以往许多昂贵的科学仪器设备往往只能供部分科研单位使用,而其他科研单位只能“望洋兴叹”。需要使用该设备时,即使得到设备所属单位的许可,这些科研单位也只能到设备的实际物理存放地点进行操作。这常常给科学研究活动带来许多的不便与障碍。共享的理念,就是要实现这些科学仪器设备可以跨越时间、空间被处于不同地理位置的部门进行操纵与控制,实现共享。

缺乏科学数据与科学仪器设备的共享,往往使得许多有可能提前得到突破的成果姗姗来迟。为了扭转这一层面,人们对e-Science的到来翘首以待。也正是因为存在这种迫切性,使得e-Science一经英国首先倡导,便如雨后春笋般在全世界范围内迅速蔓延。由于发达国家的信息化程度高,科研水平发达,拥有丰富的信息资源和关键的科学数据,因此,发达国家与发展中国家之间的科学数据共享尤显重要。

1.1.3 网格技术的支撑

美国信息处理学会联合会(American Federation of Information Processing Societies,AFIPS)在1970年从共享资源出发,把计算机网络定义为“以能够相互共享资源(硬件、软件和数据库等)的方式连接起来,并各自具备有独立功能的计算机系统的集合。”

如前文所述,当今的科学研究对象日益复杂,科学研究本身也变得更加需要合作和多学科综合。一个科学研究小组的成员可能分布在不同的研究单位、地区和国家。当前的技术,如通过E-mail和Web,这些科研人员可以获得一起合作的基本机制。但是,它依然需要科研人员花费大量时间学习和掌握新增加的有关计算资源的技术细节、访问远程的应用程序或者等待远程计算资源的响应。如果能够将这些分布式的数据、计算机、传感器和其他资源连接成一个虚拟的实验室,那将会是怎样的景象呢?网格技术的目的正是通过提供协议、服务和能够实现灵活可控大规模资源共享的软件开发包,让这一构想切实可行。

网格是伴随着互联网技术发展而迅速发展起来的。最初,它是专门针对复杂科学计算应用的一种新型计算模式。这种计算模式的特征就是要把整个网络整合成一台巨大的超级计算机。随着网格技术的发展和应用面的扩展,网格将演变为具有高性能处理、海量数据存储和大量仪器设备等特征的21世纪人类社会的信息处理基础设施。

一般而言,网格主要由六部分组成,即网格节点、数据库、贵重仪器、可视化设备、宽带主干网和网格软件。其中,网格节点是网格计算资源的提供者,它包括高端服务器、集群系统、MPP(Massively Parallel Processor)系统大型存储设备、数据库等;宽带网络系统内嵌在网格计算环境中,它是实现高性能通信的基础;资源管理和任务调度工具主要用于解决资源的描述、组织和管理等关键问题,属于网格计算的中间件,是网格技术得以将资源无缝提供给需求者的关键;监测工具帮助用户充分利用网格计算中的资源;可视化工具设备存在于网格的应用层,它通过友好的用户界面,将计算结果转换成直观的图形信息,帮助研究人员克服数据理解上的困难。

可以说,作为Internet信息技术的下一个浪潮的网格技术,将是e-Science得以实现的核心技术。也正是因为它的存在与迅猛发展,人们才有信心提出e-Science的构想。因此,在网格技术的强大支撑下,在变革科学研究模式,提高科学研究的合作、交流与共享程度,提高科学研究效率的强烈愿望的推动下,人们构造出一种全新的科研协作模式和大科学工程,这就是e-Science。它以新一代互联网技术和网格技术为基础,通过Internet联合组成一个共同的虚拟研究团队,共享资源和成果,协同工作共同完成大型的现代科学研究。