一、网格基础
1、网格问题的来源
问题的引出,两个方面:
1、在90年代末,计算面临的问题越来越复杂,需要的计算资源越来越多,当时PC配置还比较低。
2、网上大量的闲置资源。
思想的来源
借鉴电力网的思想,希望最终给用户提供的是与地理位置无关,与具体计算设施无关的应用计算能力。

2、电力网与网格组成对比
电网的构成
我们目前使用的电,包括风电、水电、火电、核电,都汇聚到电网里面,然后分散到各地给用户使用。

电网构成示意图
网格的构成
网格的组成,包括MPP大规模并行处理,PVP并行向量处理,数据,仪器,输入到网格里面,分散到各个地方进行计算,最终进行一个输出。

网格的构成
3、什么是网格计算
- 分布式计算的一种,用互联网上的计算机的 CPU 的闲置处理能力来解决大型计算问题的一种计算模式。
- 这种计算模式就是利用互联网把分散在不同地理位置的电脑组织成一个 “虚拟的超级计算机”,其中每一台参与计算的计算机就是一个”节点“,而整个计算是由成千上万个 “节点” 组成的一个 “网格” ,这种计算方式称为网格计算。
4、网格的应用领域
科学领域
- 分布式超级计算
- 高吞吐率计算
- 数据密集型计算
社会经济生活领域
- 基于广泛信息共享的人与人交互
- 更广泛的资源贸易
看个例子:SETI@home项目
该项目主要目的:利用联网PC的闲置能力分析世界上最大的射电望远镜获得数据,协助科学家探索外星生物,其计算模式的实质就是网格计算。

二、网格的体系结构
1、网格体系结构
即如何构建网格的技术,描述网格各组成部分的关系以及他们集成的方式

2、网格体系结构的分类
五层沙漏结构
由Foster等最早提出,是一个最先出现的应用和影响最广泛的结构,是一种以协议为中心的结构,十分强调服务与API和SDK的重大性。基本思想包括:
- 共享
- 互操作
- 协议
- 服务
- API/SDK
- 五层分类
五层结构及其与TCP/IP的比较

每一层存在的协议、服务和接口

OGSA体系结构
开放网格服务结构,是目前最新的一种网格体系结构。其三大基本思想:
- 一切都是服务
- 统一的Web服务架构
- 突破科技应用领域
网格服务:基于Web Service的虚拟化资源
- 服务化各类资源,多个逻辑实例映射一样的物理资源
- 位置透明、多协议绑定和服务的多种实现
- 组成高级服务,不关心各类服务如何构成

OGSA服务
- Service factory 先发起一个Service,流程如下图所示

- OGSA定义服务的标准接口

三、网格应用
1、分布式超级计算
网格最初的设计目标就是为了应用分布式超级计算,分布式超级计算是将分布在不同地点的超级计算机用高速网络连接起来,并用网格中间件软件 “粘合起来” ,形成比单台超级计算机强劲得多的计算平台。
分布式超级计算核心技术
适应性算法
- 主要解决网络的带宽和延迟问题
- 不同的应用和适应性算法的相关性极大
资源管理调度策略
- 传统的单机调度
- 优化的网格调度管理 – 网络协议和应用程序
容错
- 检查点(单机、全局)
- 心跳策略
分布式超级计算 – 模拟的黑洞

2、分布式仪器系统(DIS)
DIS指以网格管理分布在各地的贵重仪器系统,提供远程访问和控制仪器的手段。网格对DIS的影响有:
- 简化对仪器的管理
- 支持仪器的动态变化
- 资源动态调度和预留服务
- 数据管理和处理能力的提高
- 提供动态可视化和分析
DIS的核心技术
- 基于网络的海量存储系统:HPSS、DPSS
- 分布式监控:远程网络代理,协调管理,分布式监控
- 基于策略的访问控制:数字授权文档,系统资源访问控制部件,策略控制引擎
脑肿瘤会诊

3、数据密集型计算(DIC)
DIC是网格中比较广泛的应用,侧重于数据的存贮、传输、处理。
- 两大研究机构:欧洲原子能研究机构CERN,美国NPACI
- 关键处理技术:Data Grid(把海量数据分散到全球的计算机上进行处理,并由全球的物理学家共同处理分析,在这个背景下DataGrid应运而生)

DataGrid成为实现”大科学”目标的基础平台
4、远程沉浸
一种特殊的网络虚拟化现实环境,建立在高速网络的基础上,是系统可视化环境CVE、音频、视频会议以及超级计算机和海量数据存贮的有机融合。
- 与协同虚拟环境CVE或分布式虚拟环境DVE不同,网格不仅使得虚拟环境更为逼真,更重大的是改变了 “人/机交互” 模式为 “人/机/协作” 模式。

虚拟花园中活动
4、网格计算与云计算的关系
一样点
计算的并行与合作的特点
不同点
- 网格计算:思路是聚合分布资源,支持虚拟组织,提供高层次的服务。
- 云计算:资源相对聚焦,主要以数据中心的形式提供底层资源的使用,不强调虚拟组织的概念。
5、网格计算的演进
1、GridGain软件
GridGain内存计算平台是一个高性能、集成化、混合式的企业级分布式架构解决方案,功能强劲,有先进的集群管理功能。

GridGain架构图
2、Hadoop加速器GridGain
像GridGain等内存网格产品(IMDG)不仅可以作为简单的缓存,加速Hadoop中MapReduce计算也是IMDG的一个亮点。这样内存计算领域又多了一种思路和选择,而不只是Spark独霸一方的局面。关于GridGain的功能介绍请参考《开源IMDG之GridGain》

Hadoop处理流程
3、Spark应用
Apache IngIt提供了一个Spark RDD抽象的实现,可以轻松的在作业中共享内存状态。

4、Ignite软件
是一个以内存为中心的分布式数据库、缓存和处理平台,意义在PB级数据中心,以内存级的速度进行事务性、分析性以及流式负载的处理。

以上就是网格计算的相关知识,关注我,每日干货分享更新,跟我一起学习吧~





