问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

Hadoop辉煌还能延续多久

发布网友 发布时间:2022-04-20 08:48

我来回答

1个回答

热心网友 时间:2022-04-14 08:51

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,它的地位似乎一时难以动摇。

谷歌文件系统与MapRece

我们先来探讨一下Hadoop的灵魂——MapRece。面对数据的爆炸性增长,谷歌的工程师Jeff Dean和Sanjay Ghemawat架构并发布了两个开创性的系统:谷歌文件系统(GFS)和谷歌MapRece(GMR)。前者是一个出色而实用的解决方案-使用常规的硬件扩展并管理数据,后者同样辉煌,造就了一个适用于大规模并行处理的计算框架。

谷歌MapRece(GMR)为普通开发者/用户进行大数据处理提供了简易的方式,并使之快速、具备容错性。谷歌文件系统(GFS)和谷歌MapRece(GMR)也为谷歌搜索引擎对网页进行抓取、分析提供了核心动力。

再回头看看开源世界中的Hadoop,Apache Hadoop的分布式文件系统(HDFS)和Hadoop MapRece完全是谷歌文件系统(GFS)和谷歌MapRece(GMR)的开源实现。Hadoop项目已经发展成为一个生态系统,并触及了大数据领域的方方面面。但从根本上,它的核心是MapRece。

Hadoop是否可以赶超谷歌?

一个有趣的现象是,MapRece在谷歌已不再显赫。当企业瞩目MapRece的时候,谷歌好像早已进入到了下一个时代。事实上,我们谈论的这些技术早就不是新技术了,MapRece也不例外。

我希望在后Hadoop时代下面这些技术能够更具竞争性。尽管许多Apache社区的项目和商业化Hadoop项目都非常活跃,并以来自HBase、Hive和下一代MapRece(YARN)的技术不断完善着Hadoop体系,我依然认为,Hadoop核心(HDFS和Zookeeper)需要脱离MapRece并以全新的架构增强自己的竞争力,真正与谷歌技术一较高下。

过滤不断增长的索引,分析不断变化的数据集。Hadoop的伟大之处在于,它一旦开始运行,就会飞速地分析你的数据。尽管如此,在每次分析数据之前,即添加、更改或删除数据之后,我们都必须将整个数据集进行流式处理。这意味着,随着数据集的膨胀,分析时间也会随之增加,且不可预期。

那么,谷歌又是怎么做到搜索结果越来越实时呈现呢?一个名为Percolator的增量处理引擎取代了谷歌MapRece(GMR)。通过对新建、更改和已删除文档的处理,并使用二级索引进行高效的分类、查询,谷歌能够显著地降低实现其目标的时间。

Percolator的作者写道:“将索引系统转化为一个增量系统……文档平均处理延迟的因子降低到了现在的100。”这句话的意思是,索引Web上新内容的速度比之前MapRece系统快了100倍。

谷歌Dremel即时数据分析解决方案

谷歌和Hadoop社区曾致力于构建基于MapRece的易用性即时数据分析工具,如谷歌的并行处理语言Sawzall,Apache Pig和Hive。但对熟知SQL的人们而言,他们忽略了一个基本事实-构建MapRece的目标就在于管理数据处理工作。它的核心能力在于工作流管理,而不是即时数据分析。

与之形成鲜明对比的是,很多BI或数据分析查询基本上都要求即时、交互和低延迟。这意味着,使用Hadoop不仅需要规划流程图,而且需要为许多查询分析裁减不必要的工作流。即便如此,我们也要花费数分钟等待工作开始,然后花费数小时等待工作流完成,并且这个过程也非常不利于交互式体验。因此,谷歌研发了Dremel予以应对。Dremel是Google 的“交互式”数据分析系统,可以在几秒钟内处理PB级别的数据,并能轻松应对即时查询。

Google Dremel的设计特点:

Dremel是一个可扩展的大型系统。在一个PB级别的数据集上面,将任务缩短到秒级,无疑需要大量的并发。磁盘的顺序读速度在100MB/S上下,那么在1S内处理1TB数据,意味着至少需要有1万个磁盘的并发读! Google一向是用廉价机器办大事的好手。但是机器越多,出问题概率越大,如此大的集群规模,需要有足够的容错考虑,保证整个分析的速度不被集群中的个别节点影响。 

Dremel是MapRece的补充。和MapRece一样,Dremel也需要GFS这样的文件系统作为存储层。在设计之初,Dremel并非是MapRece的替代品,它只是可以执行非常快的分析,在使用的时候,常常用它来处理MapRece的结果集或者用来建立分析原型。 

Dremel的数据模型是嵌套的。互联网数据常常是非关系型的。Dremel还需要有一个灵活的数据模型,这个数据模型至关重要。Dremel支持一个嵌套的数据模型,类似于JSON。而传统的关系模型,由于不可避免的有大量的JOIN操作,在处理如此大规模的数据的时候,往往是有心无力的。

Dremel中的数据是采用列式存储的。使用列式存储,分析的时候,可以只扫描需要的那部分数据的时候,减少CPU和磁盘的访问量。同时列式存储是压缩友好的,使用压缩,可以综合CPU和磁盘,发挥最大的效能。

Dremel结合了Web搜索和并行DBMS的技术。Dremel借鉴了Web搜索中的“查询树”的概念,将一个相对巨大复杂的查询,分割成较小较简单的查询。大事化小,小事化了,能并发的在大量节点上跑。另外,和并行DBMS类似,Dremel可以提供了一个SQL-like的接口,就像Hive和Pig那样。

谷歌的图数据计算框架Pregel

谷歌MapRece是专门为抓取、分析世界上最庞大的图形架构-internet而设计的,但针对大规模图算法(如图遍历(BFS)、PageRank,最短路径(SSSP)等)的计算则显得效率低下。因此,谷歌构建了Pregel。

Pregel给人的印象非常深刻。Pregel不仅能高效执行SSSP或PageRank算法,更令人惊讶的是,公布的数据显示Pregel处理一个有着几十亿节点、上万亿条边的图,只需数分钟即可完成,其执行时间随着图的大小呈线性增长。

Pregel基于BSP模型,就是“计算”-“通信”-“同步”的模式:

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
铁路12306官网登录入口 12306密码忘了怎么重新注册 嬉戏谷门票优惠2023 嬉戏谷门票预订 嬉戏谷门票多少钱 嬉戏谷门票优惠政策 嬉戏谷门票哪里买便宜 嬉戏谷门票怎么买便宜 “山川修且广”的出处是哪里 我姓唐只知"太超修广咸"字辈,能告诉我后面是什么字辈吗 sawzall如何发音? 下周有哪些新股申购? 芜湖五险一不满15 芜湖站3月15号6点44分的动车发往哪里? 从南京火车站坐火车去安徽芜湖每天都有列车吗?? 芜湖社保以前都是每月15号前就从银行卡自动划扣了... 安徽芜湖每月15号扣的社保是当月的还是上个月的 今天正月十五芜湖小九华开放吗? 安徽芜湖市以最低档缴纳社保15年后退休每月可拿多少钱 芜湖站同站换乘15分钟够吗 15路公交车路线图芜湖东方龙城在哪一站下车 芜湖、社保缴费15年`视同工龄15年、平均工资4800元... 芜湖社保交满15年弟一个月拿多少钱? 安徽芜湖冬天的天气情况,最冷是多少度,一般多少度? 在芜湖15岁能找工作吗 在芜湖购买15年社保,离休大概能拿多少钱一个月? 芜湖年薪15万什么水平 芜湖十大旅游景点 芜湖市未来15天天气预报? 1个g等于多少兆流量 目前主要有哪些公司在推进云计算技术?他们各有什... 如何看待google说已经停用mapreduce好多年 云计算技术在公司使用的可行性分析 hadoop是不是已经快过时了? 如何看待 Google 说已经停用 Map Reduce 好多年 TBB是什么意思? 分布式系统领域有哪些经典论文 “生命诚可贵,爱情价更高”的英语原文是什么?裴多... “生命诚可贵,爱情价更高,若为自由故,两者皆可抛... 鲁迅野草中提到的Petofi Sandor的诗 希望 的英文翻... 鲁迅的散文《希望》原文及赏析 (生命诚可贵,爱情价更高;若为自由故,二者皆可... 幽雅语段,好的,急用 "生命诚可贵,爱情价更高,若为金钱故,两者皆可抛... 若为自由故,两者皆可抛? 人间疾苦,波底斑斓是谁写的 谁能单独解释一下“若为自由故”的函义,其中的自由... 绝望之为虚妄,正如希望相同 有人说是鲁迅说的,有... 蝙蝠侠黑暗骑士崛起的问题? 生命诚可贵,爱情价更高作者是哪国人?