发布网友 发布时间:2022-04-22 09:03
共1个回答
热心网友 时间:2023-10-06 06:12
目前几个主流的分散式档案系统除GPFS外,还有PVFS、Lustre、PanFS、GoogleFS等。
1.PVFS(Parallel Virtual File System)专案是Clemson大学为了执行Linux丛集而建立的一个开源专案,目前PVFS还存在以下不足:
1)单一管理节点:只有一个管理节点来管理元资料,当集群系统达到一定的规模之后,管理节点将可能出现过度繁忙的情况,这时管理节点将成为系统瓶颈;
2)对资料的储存缺乏容错机制:当某一I/O节点无法工作时,资料将出现不可用的情况;
3)静态配置:对PVFS的配置只能在启动前进行,一旦系统执行则不可再更改原先的配置。
2.Lustre档案系统是一个基于物件储存的分散式档案系统,此专案于1999年在Carnegie Mellon University启动,Lustre也是一个开源专案。它只有两个元资料管理节点,同PVFS类似,当系统达到一定的规模之后,管理节点会成为Lustre系统中的瓶颈。
3.PanFS(Panasas File System)是Panasas公司用于管理自己的丛集储存系统的分散式档案系统。
4.GoogleFS(Google File System)是Google公司为了满足公司内部的资料处理需要而设计的一套分散式档案系统。
5.相对其它的档案系统,GPFS的主要优点有以下三点:
1)使用分散式锁管理和大资料块策略支援更大规模的集群系统,档案系统的令牌管理器为块、inode、属性和目录项建立细粒度的锁,第一个获得锁的客户将负责维护相应共享物件的一致性管理,这减少了元资料伺服器的负担;
2)拥有多个元资料伺服器,元资料也是分散式,使得元资料的管理不再是系统瓶颈;
3)令牌管理以位元组作为锁的最小单位,也就是说除非两个请求访问的是同一档案的同一位元组资料,对于资料的访问请求永远不会冲突.
分散式档案系统、丛集档案系统、并行档案系统,这三种概念很容易混淆,实际中大家也经常不加区分地使用。总是有人问起这三者的区别和联络,其实它们之间在概念上的确有交叉重叠的地方,但是也存在显著不同之处。
Google File System 档案系统
为了满足Google迅速增长的资料处理需求,Google设计并实现了Google档案系统(GFS,Google File System)。GFS与过去的分散式档案系统拥有许多相同的目标,例如效能、可伸缩性、可靠性以及可用性。然而,它的设计还受到Google应用负载和技术环境的影响。主要体现在以下四个方面:
1. 丛集中的节点失效是一种常态,而不是一种异常。由于参与运算与处理的节点数目非常庞大,通常会使用上千个节点进行共同计算,因此,每时每刻总会有节点处在失效状态。需要通过软体程式模组,监视系统的动态执行状况,侦测错误,并且将容错以及自动恢复系统整合在系统中。
2. Google系统中的档案大小与通常档案系统中的档案大小概念不一样,档案大小通常以G位元组计。另外档案系统中的档案含义与通常档案不同,一个大档案可能包含大量数目的通常意义上的小档案。所以,设计预期和引数,例如I/O操作和块尺寸都要重新考虑。
3. Google档案系统中的档案读写模式和传统的档案系统不同。在Google应用(如搜寻)中对大部分档案的修改,不是覆盖原有资料,而是在档案尾追加新资料。对档案的随机写是几乎不存在的。对于这类巨大档案的访问模式,客户端对资料块快取失去了意义,追加操作成为效能优化和原子性(把一个事务看做是一个程式。它要么被完整地执行,要么完全不执行)保证的焦点。
4. 档案系统的某些具体操作不再透明,而且需要应用程式的协助完成,应用程式和档案系统API的协同设计提高了整个系统的灵活性。例如,放松了对GFS一致性模型的要求,这样不用加重应用程式的负担,就大大简化了档案系统的设计。还引入了原子性的追加操作,这样多个客户端同时进行追加的时候,就不需要额外的同步操作了。
总之,GFS是为Google应用程式本身而设计的。据称,Google已经部署了许多GFS丛集。有的丛集拥有超过1000个储存节点,超过300T的硬碟空间,被不同机器上的数百个客户端连续不断地频繁访问著。
1、单机档案系统
用于作业系统和应用程式的本地储存。
2、网路档案系统(简称:NAS)
基于现有乙太网架构,实现不同伺服器之间传统档案系统资料共享。
3、丛集档案系统
在共享储存基础上,通过丛集锁,实现不同伺服器能够共用一个传统档案系统。
4、分散式档案系统
在传统档案系统上,通过额外模组实现资料跨伺服器分布,并且自身整合raid保护功能,可以保证多台伺服器同时访问、修改同一个档案系统。效能优越,扩充套件性很好,成本低廉。
常见的分散式档案系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分散式档案系统,而是应用级的分散式档案储存服务。
GFS(Google File System)
--------------------------------------
Google公司为了满足本公司需求而开发的基于Linux的专有分散式档案系统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软体部分作为开源软体释出。
下面分散式档案系统都是类 GFS的产品。
HDFS
--------------------------------------
Hadoop 实现了一个分散式档案系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文字搜寻库。它起源于Apache Nutch,后者是一个开源的网路搜寻引擎,本身也是Luene专案的一部分。Aapche Hadoop架构是MapRece演算法的一种开源应用,是Google开创其帝国的重要基石。
Ceph
---------------------------------------
是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分散式档案系统。并使用Ceph完成了他的论文。
说 ceph 效能最高,C++编写的程式码,支援Fuse,并且没有单点故障依赖, 于是下载安装, 由于 ceph 使用 btrfs 档案系统, 而btrfs 档案系统需要 Linux 2.6.34 以上的核心才支援。
可是ceph太不成熟了,它基于的btrfs本身就不成熟,它的官方网站上也明确指出不要把ceph用在生产环境中。
Lustre
---------------------------------------
Lustre是一个大规模的、安全可靠的,具备高可用性的丛集档案系统,它是由SUN公司开发和维护的。
该专案主要的目的就是开发下一代的丛集档案系统,可以支援超过10000个节点,数以PB的资料量储存系统。
目前Lustre已经运用在一些领域,例如HP SFS产品等。
hadoop、luster、gluster、sector/sphere等
一种经济资料模型;操作过程: 截面资料:Object/NewObject,并从该选单中选择Equation选项。在出现的Equation Specification对话方块输入方程。 面板资料:开启eviews,开启一个workfile,点选balanced panel,进入面板资料框,输完资料之后