问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

四.(一)HDFS优缺点

发布网友 发布时间:2022-10-25 21:28

我来回答

1个回答

热心网友 时间:2023-10-04 04:16

Hadoop中HDFS优缺点

HDFS的优点:

        1、处理超大文件

                这里的超大文件通常是指百MB、甚至数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。

        2、流式的访问数据

                HDFS的设计建立在“一次写入、多次读写”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。

        3、运行于廉价的商用机器集群上

                Hadoop设计对应急需求比较低,只须运行在低廉的商用硬件集群上,而无需在昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。HDFS遇到了上述故障时,被设计成能够继续运行且不让用户察觉到明显的中断。

HDFS的缺点:

        1、不适合低延迟数据访问

                如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。HDFS是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的,这就可能要求以高延迟作为代价。

改进策略:

                        对于那些有低延时要求的应用程序,HBase是一个更好的选择,通过上层数据管理项目尽可能地弥补这个不足。在性能上有了很大的提升,它的口号是goes real time。使用缓存或多个master设计可以降低Clinet的数据请求压力,以减少延时。

        2、无法高效存储大量的小文件

                因为NameNode把文件系统的元数据放置在内存中,所有文件系统所能容纳的文件数目是由NameNode的内存大小来决定。还有一个问题就是,因为MapTask的数量是由Splits来决定的,所以用MR处理大量的小文件时,就会产生过多的MapTask,线程管理开销将会增加作业时间。当Hadoop处理很多小文件(文件大小小于HDFS中Block大小)的时候,由于FileInputFormat不会对小文件进行划分,所以每一个小文件都会被当做一个Split并分配一个Map任务,导致效率底下。

                例如:一个1G的文件,会被划分成16个64MB的Split,并分配16个Map任务处理,而10000个100Kb的文件会被10000个Map任务处理。

改进策略:

                        要想让HDFS能处理好小文件,有不少方法。利用SequenceFile、MapFile、Har等方式归档小文件,这个方法的原理就是把小文件归档起来管理,HBase就是基于此的。

        3、不支持多用户写入及任意修改文件

                在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作,目前HDFS还不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改。

热心网友 时间:2023-09-12 03:18

Hadoop中HDFS优缺点

HDFS的优点:

        1、处理超大文件

                这里的超大文件通常是指百MB、甚至数百TB大小的文件。目前在实际应用中,HDFS已经能用来存储管理PB级的数据了。

        2、流式的访问数据

                HDFS的设计建立在“一次写入、多次读写”任务的基础上。这意味着一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。

        3、运行于廉价的商用机器集群上

                Hadoop设计对应急需求比较低,只须运行在低廉的商用硬件集群上,而无需在昂贵的高可用性机器上。廉价的商用机也就意味着大型集群中出现节点故障情况的概率非常高。HDFS遇到了上述故障时,被设计成能够继续运行且不让用户察觉到明显的中断。

HDFS的缺点:

        1、不适合低延迟数据访问

                如果要处理一些用户要求时间比较短的低延迟应用请求,则HDFS不适合。HDFS是为了处理大型数据集分析任务的,主要是为达到高的数据吞吐量而设计的,这就可能要求以高延迟作为代价。

改进策略:

                        对于那些有低延时要求的应用程序,HBase是一个更好的选择,通过上层数据管理项目尽可能地弥补这个不足。在性能上有了很大的提升,它的口号是goes real time。使用缓存或多个master设计可以降低Clinet的数据请求压力,以减少延时。

        2、无法高效存储大量的小文件

                因为NameNode把文件系统的元数据放置在内存中,所有文件系统所能容纳的文件数目是由NameNode的内存大小来决定。还有一个问题就是,因为MapTask的数量是由Splits来决定的,所以用MR处理大量的小文件时,就会产生过多的MapTask,线程管理开销将会增加作业时间。当Hadoop处理很多小文件(文件大小小于HDFS中Block大小)的时候,由于FileInputFormat不会对小文件进行划分,所以每一个小文件都会被当做一个Split并分配一个Map任务,导致效率底下。

                例如:一个1G的文件,会被划分成16个64MB的Split,并分配16个Map任务处理,而10000个100Kb的文件会被10000个Map任务处理。

改进策略:

                        要想让HDFS能处理好小文件,有不少方法。利用SequenceFile、MapFile、Har等方式归档小文件,这个方法的原理就是把小文件归档起来管理,HBase就是基于此的。

        3、不支持多用户写入及任意修改文件

                在HDFS的一个文件中只有一个写入者,而且写操作只能在文件末尾完成,即只能执行追加操作,目前HDFS还不支持多个用户对同一文件的写操作,以及在文件任意位置进行修改。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
说课包括哪些方面 说课内容包括()。 如何在手机百度上删除对话记录? 结核病是什么样的疾病? 曹丕17岁得了肺痨,明知自己命不长久,还要强争王位,是不是很自私呢?_百... 古代小说常出现的病名 急求一篇"生活小窍门"(500字)的作文 至今最有什么小妙招 健康的戒烟方法 笔记本电池锁死是什么原因引起的? 为什么孩子有时斜视有时不斜视 为什么孩子有时斜视,有时又不斜视 为什么有的时候斜视。有的时候就正常了? 做完斜视手术以后早上起来的时候不怎么斜过一会就斜的厉害了 问:做完斜视手术以后早上起来的时候不怎么斜过一会就斜的厉害了 物联网设备的分类及未来发展中存在的问题有哪些? 内斜视 容易复视 怎么办 斜视眼问题,我是右眼斜视视力是400度而左眼100多度, OPPOa8主板上的六脚管是啥? 我用手机互联网网12306订火车票怎么要到上午十点才能查询 订票。 鹧鸪茶如何泡 鹧鸪茶球的正确冲泡方法 只需要简单三个步骤就能泡出口感纯正的鹧鸪茶 什么是由任式球阀 初中生想花一千七买一双鞋子,你觉得奢侈吗? 想入手一双耐克鞋,可怎么也舍不得怎么办? 站在烦恼里仰望幸福优秀作文 守望幸福是什么意思? 我家宝贝儿现在两岁三个月,平时饮食也可以,但是已经两三天没有正常排便了,而且还有些口臭,怎么办呢? 婴儿被蟒蛇缠绕,父亲却毫不在意,父亲究竟为什么这样? 扎根于现实的理想才能开花的意思 哈尔滨《消防工程师》的报考条件是什么? 哈尔滨二级消防工程师报考条件? 侧柏精油 税务会计与财务会计有何关系 不锈钢台面水痕迹怎么去除 7个不锈钢台面水痕迹去除小妙招介绍 小年夜的事作文 平潭职业中专的介绍 平潭职业中专学校分数线2021年 平潭县职业中专学校有哪些 如何自动画出macd柱体变化 郑州公立幼儿园入园条件 郑东新区育翔幼儿园招生条件 如何编制男式冬帽 异界之逆天杀神_by错失_txt全文免费阅读 重生无敌小正太小说txt全集免费下载 那年夏天热小说txt全集免费下载 秘婚小说txt全集免费下载 俢惠而浦洗衣机的建水有维修店吗 叫叫阅读课和斑马语文哪个好 有什么不同 叫叫阅读课和斑马语文哪个好 口碑和评价如何