问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

HDFS文件

发布网友 发布时间:2022-09-30 11:24

我来回答

1个回答

热心网友 时间:2024-08-27 07:42

Hadoop支持的文件系统由很多(见下图),HDFS只是其中一种实现。Java抽象类 org.apache.hadoop.fs.FileSystem 定义了Hadoop中一个文件系统的客户端接口,并且该抽象类有几个具体实现。Hadoop一般使用URI(下图)方案来选取合适的文件系统实例进行交互。

特别的,HDFS文件系统的操作可以使用 FsSystem shell 、客户端(http rest api、Java api、C api等)。

FsSystem shell 的用法基本同本地shell类似,命令可参考 FsSystem shell

Hadoop是用Java写的,通过Java Api( FileSystem 类)可以调用大部分Hadoop文件系统的交互操作。更详细的介绍可参考 hadoop Filesystem 。

非Java开发的应用可以使用由WebHDFS协议提供的HTTP REST API,但是HTTP比原生的Java客户端要慢,所以不到万不得已尽量不要使用HTTP传输特大数据。通过HTTP来访问HDFS有两种方法:

两种如图

在第一种情况中,namenode和datanode内嵌的web服务作为WebHDFS的端节点运行(是否启用WebHDFS可通过dfs.webhdfs.enabled设置,默认为true)。文件元数据在namenode上,文件读写操作首先被发往namenode,有namenode发送一个HTTP重定向至某个客户端,指示以流的方式传输文件数据的目的或源datanode。

第二种方法依靠一个或多个独立代理服务器通过HTTP访问HDFS。所有集群的网络通信都需要通过代理,因此客户端从来不直接访问namenode或datanode。使用代理后可以使用更严格的防火墙策略和带宽策略。

HttpFs代理提供和WebHDFS相同的HTTP接口,这样客户端能够通过webhdfs URI访问接口。HttpFS代理启动独立于namenode和datanode的守护进程,使用httpfs.sh 脚本,默认在一个不同的端口上监听(14000)。

下图描述了

读文件时客户端与 HDFS 中的 namenode, datanode 之间的数据流动。

对上图的解释如下:

在读取过程中, 如果 FSDataInputStream 在和一个 datanode 进行交流时出现了一个错误,他就去试一试下一个最接近的块,他当然也会记住刚才发生错误的 datanode 以至于之后不会再在这个 datanode 上进行没必要的尝试。 DFSInputStream 也会在 datanode 上传输出的数据上核查检查数(checknums).如果损坏的块被发现了, DFSInputStream 就试图从另一个拥有备份的 datanode 中去读取备份块中的数据。

在这个设计中一个重要的方面就是客户端直接从 datanode 上检索数据,并通过 namenode 指导来得到每一个块的最佳 datanode。这种设计允许 HDFS 扩展大量的并发客户端,因为数据传输只是集群上的所有 datanode 展开的。期间,namenode 仅仅只需要服务于获取块位置的请求(块位置信息是存放在内存中,所以效率很高)。如果不这样设计,随着客户端数据量的增长,数据服务就会很快成为一个瓶颈。

我们知道,相对于客户端(之后就是 maprece task 了),块的位置有以下可能性:

我们认为他们对于客户端的带宽递减,距离递增(括号中表示距离)。示意图如下:

如果集群中的机器都在同一个机架上,我们无需其他配置,若集群比较复杂,由于hadoop无法自动发现网络拓扑,所以需要额外配置网络拓扑。

基本读取程序,将文件内容输出到console

FileSystemCat

随机读取

展开原码

下图描述了写文件时客户端与 HDFS 中的 namenode, datanode 之间的数据流动。

对上图的解释如下:

如果在任何一个 datanode 在写入数据的时候失败了,接下来所做的一切对客户端都是透明的:首先, pipeline 被关闭,在确认队列中的剩下的包会被添加进数据队列的起始位置上,以至于在失败的节点下游的任 何节点都不会丢失任何的包。然后与 namenode 联系后,当前在一个好的 datanode 会联系 namenode, 给失败节点上还未写完的块生成一个新的标识ID, 以至于如果这个失败的 datanode 不久后恢复了,这个不完整的块将会被删除。失败节点会从 pipeline 中移除,然后剩下两个好的 datanode 会组成一个的新的 pipeline ,剩下的 这些块的包(也就是刚才放在数据队列队首的包)会继续写进 pipeline 中好的 datanode 中。最后,namenode 注意到块备份数小于规定的备份数,他就安排在另一个节点上创建完成备份,直接从已有的块中复制就可以。然后一直到满足了备份数( dfs.replication )。如果有多个节点的写入失败了,如果满足了最小备份数的设置( dfs.namenode.repliction.min ),写入也将会成功,然后剩下的备份会被集群异步的执行备份,直到满足了备份数( dfs.replication )。

创建目录

文件压缩有两大好处:

Hadoop 对于压缩格式的是自动识别。如果我们压缩的文件有相应压缩格式的扩展名(比如 lzo,gz,bzip2 等)。Hadoop 会根据压缩格式的扩展名自动选择相对应的解码器来解压数据,此过程完全是 Hadoop 自动处理,我们只需要确保输入的压缩文件有扩展名。

Hadoop中有多种压缩格式、算法和工具,下图列出了常用的压缩方法。

表中的“是否可切分”表示对应的压缩算法是否支持切分,也就是说是否可以搜索数据流的任意位置并进一步往下读取数据,可切分的压缩格式尤其适合MapRece。

所有的压缩算法都需要权衡空间/时间:压缩和解压缩速度更快,其代价通常是只能节省少量的空间。不同的压缩工具有不同的特性:

更详细的比较如下

1.压缩性能比较

2.优缺点

另外使用hadoop原生(native)类库比其他java实现有更快的压缩和解压缩速度。特征比较如下:

使用容器文件格式结合压缩算法也能更好的提高效率。顺序文件、Arvo文件、ORCFiles、Parqurt文件同时支持压缩和切分。

压缩举例(Java)

压缩

解压缩

六、文件序列化

序列化是指将结构化数据转换为字节流以便在网络上传输或写到磁盘进行永久存储。反序列化狮子将字节流转换回结构化对象的逆过程。

序列化用于分布式数据处理的两大领域:进程间通信和永久存储。

对序列化的要求时是格式紧凑(高效使用存储空间)、快速(读写效率高)、可扩展(可以透明地读取老格式数据)且可以互操作(可以使用不同的语言读写数据)。

Hadoop使用的是自己的序列化格式 Writable ,它绝对紧凑、速度快,但不太容易用java以外的语言进行扩展或使用。

当然,用户也可以使用其他序列化框架或者自定义序列化方式,如 Avro 框架。

Hadoop内部还使用了 Apache Thrift 和 Protocal Buffers 来实现RPC和数据交换。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
抖音弹幕怎么关掉?怎么关闭抖音弹幕? 惠普LaserJet P3005D是否支持B5纸的双面打印? word打印出图片总是缺一部分怎么办-word打印图片不完整怎么解决_百度... 理想one哪里产的车辆? 抚州抚州ONE在哪里? one地址在哪里? 如何在图片上写字(如何在图片上添加文字) 网商贷为什么钱没到账 高级经济师职称怎么评 高级经济师需要评审吗 网络借贷相关法律规定 42除以2与2除42的结果相同。对不对 42÷2等于几? 42÷2的除法竖式怎么做? 42÷2的列竖式计算 16句撩妹法宝 满满套路的土味情话大全 哄女孩子的土味情话? 哄女友的超甜情话土味情话有哪些? 有点霸气的励志个性签名青春励志 一般国内ACCA的年薪是多少呢? 单反能录像吗 易企秀app已下载怎样用手机制作相册 机关公文写作的技巧 托斯雅福考什么内容 德福考试是什么情况?成绩有效期是多长时间? 请教一下,大专生参考托*福考*试有用吗? 冬瓜的家常菜做法,简单实用 吃货必备(附教程) 容祖儿所有合唱歌曲 吻别的位置 - 李克勤 歌词 容祖儿和李克勤在拉阔音音乐会上的一首叫做<<慌>>的歌,求歌词 办理户口迁出原页被撕掉了 户口迁出了原户口页还在吗 啥叫 户口本 迁出信息页? 户口迁移原来的户口页收回吗 户口本上这一页能够单独迁出来吗? Camelot识别pdf表格时的参数设置补充 Brave Sir Robin 歌词 日版有锁iPhone 6 plus 移动可以完美4g有哪几种方法 刘伯温料事如神是再世诸葛却算不出自己的命,你对他了解多少? 料事如神的刘伯温,为何说朱元璋有35年的君王命,但却被偷走了四年?_百... 中国劲酒和劲牌十全酒哪种好 中国劲酒是保健酒吗? 我想买纯天然的有机大米给父母吃,有没有推荐的? 我想知道什么是有机大米? 臻米和大米的区别是什么? 哪个牌子的大米好吃呢? 有机大米为什么卖得比普通大米贵? 初中防火安全教育教案 一杯水放发动机上检测发动机振动的原理 索尔仁尼琴名言