问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

大数据常用文件格式介绍

发布网友 发布时间:2022-09-22 20:32

我来回答

1个回答

热心网友 时间:2024-04-18 02:12

图片看不见的话可以看我CSDN上的文章:
https://blog.csdn.net/u013332124/article/details/86423952

最近在做hdfs小文件合并的项目,涉及了一些文件格式的读写,比如avro、orc、parquet等。期间阅读了一些资料,因此打算写篇文章做个记录。

这篇文章不会介绍如何对这些格式的文件进行读写,只会介绍一下它们各自的特点以及底层存储的编码格式

[图片上传失败...(image-a5104a-1547368703623)]

使用sequencefile还可以将多个小文件合并到一个大文件中,通过key-value的形式组织起来,此时该sequencefile可以看做是一个小文件容器。

[图片上传失败...(image-4d03a2-1547368703623)]

Parquet是一个基于列式存储的文件格式,它将数据按列划分进行存储。Parquet官网上的文件格式介绍图:

[图片上传失败...(image-92770e-1547368703623)]

我们可以看出,parquet由几个部分构成:

[图片上传失败...(image-391e57-1547368703623)]

Orc也是一个列式存储格式,产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。

[图片上传失败...(image-ba6160-1547368703623)]

目前列式存储是大数据领域基本的优化项,无论是存储还是查询,列式存储能做的优化都很多,看完上面对orc和parquet的文件结构介绍后,我们列式存储的优化点做一个总结:

在压缩方面

在查询方面

就网上找到的一些数据来看,Orc的压缩比会比Parquet的高一些,至于查询性能,两个应该不会差距太大。本人之前做过一个测试,在多数场景,hive on mr下,orc的查询性能会更好一些。换成hive on spark后,parquet的性能更好一些

本文介绍的4种大数据存储格式,2个是行式存储,2个是列式存储,但我们可以看到一个共同点:它们都是支持分割的。这是大数据文件结构体系中一个非常重要的特点,因为可分割使一个文件可以被多个节点并发处理,提高数据的处理速度

另外,当前大数据的主要趋势应该是使用列式存储,目前我们公司已经逐步推进列式存储的使用,本人也在hive上做过一些测试,在多个查询场景下,无论是orc还是parquet的查询速度都完爆text格式的,差不多有4-8倍的性能提升。另外,orc和parquet的压缩比都能达到10比1的程度。因此,无论从节约资源和查询性能考虑,在大多数情况下,选择orc或者parquet作为文件存储格式是更好的选择。另外,spark sql的默认读写格式也是parquet。

当然,并不是说列式存储已经一统天下了,大多时候我们还是要根据自己的使用场景来决定使用哪种存储格式。

Sequencefile

https://blog.csdn.net/en_joker/article/details/79648861

https://stackoverflow.com/questions/11778681/advantages-of-sequence-file-over-hdfs-textfile

Avro和Sequencefile区别

https://stackoverflow.com/questions/24236803/difference-between-avrodata-file-and-sequence-file-with-respect-to-apache-sqoop

parquet

https://www.cnblogs.com/ITtangtang/p/7681019.html

Orc

https://www.cnblogs.com/ITtangtang/p/7677912.html

https://www.cnblogs.com/cxzdy/p/5910760.html

Orc和parquet的一些对比

https://blog.csdn.net/colorant/article/details/53699822

https://blog.csdn.net/yu616568/article/details/51188479

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
分手后说过的话精选185句 分手说的精选113句 分手怎么挽回女朋友的句子精选162句 现在工作忙的要死,女朋友因为这跟我分手,我该怎么办? ...任意组成两个不同的两位小数,并把它们改写成以0.001为计数单位... m3/MW▪h怎么换算m3/s▪GW? 交通银行的刷卡金怎么使用呢? 什么时候刷卡金 ...突然前面两条腿好像断了一样 走路前面两腿都无法支撑 吃饭就坐着吃... 王者荣耀:伤害与回复兼备的杨戬,为何不受待见,真废了吗? iceberg 元数据 Spark 处理小文件 想问浏览器私密空间在哪 锤子手机可以给iPhone充电吗 锤子手机怎么给iphone充电需要一根什么名字 锤子怎么给iPhone充电,好像没有接头 坚果怎么给别的手机充电 挂p档要踩刹车吗 QQ浏览器怎样开启文件私密空间 梦见祖坟被别人当屋住了? Win7怎么隐藏ie图标 想问优酷从哪里登录会员 期待落空的场景20字? 酸枣仁怎样吃治失眠最有效 咸阳机场属于哪个区域 经典搞笑祝福语句 稻盛和夫 活法 摘录和有感 铁矿石指数与主力合约有什么关系 竹纤维板用几年会变色? 曾在地震救援中失联的甘孜24名特警平安归建,他们都经历了什么? 看的近义词和反义词是什么 职场话术:被冤枉时巧妙应对 梦见摘橙子 《神契幻奇谭》中有哪些神器? 神契幻奇谭中十大神器是什么 《神契幻奇谭》中的各种神器都有什么由来如题 谢谢了 淘宝怎么看自己等级几颗星 如何查找微博屏蔽了我的人? 污味情话系列来咯 情话污一点才可爱 最撩人的高级情话大全 (通用40句) 超撩人的土味情话,让人难以抗拒 (通用60句) 梦到了未来发生的事 成语头晕目眩是什么意思 唐朝科举制度的过程 求一首诗的赏析,《听弹琴》 怎样给QQ宠物改名呢? 如何给qq宠物改名子 有关美术系的标志 女人梦见一个和尚走在一个高大的人后面? 刚装修好房子买了华帝家用燃气热水器,安装步骤谁有?准备自己安装。