关于hdfs的物理存储路径问题
发布网友
发布时间:2022-04-21 21:53
我来回答
共1个回答
热心网友
时间:2022-03-31 20:02
我没用过Hive,但HDFS的存储机制都是一样的。
你所谓的物理位置指的是在操作系统中的磁盘路径?
这个路径是在Hadoop配置的时候写在hdfs-site.xml文件的dfs.datanode.data.dir字段里的,在每个datanode的这个文件夹里存着该节点上存储的所有数据块block,以blk_打头。
dfs.namenode.data.dir指定的文件夹在namenode中则存在元数据。
所以即便你知道这个所谓的物理路径也没什么用,数据都是以block形式存在的,大的数据还由好多个block组成,而且每个block还有副本。追问我研究了两天,终于弄明白hdfs的存储原理和hive路径问题,和你说的一样,hdfs块存储的位置确实是dfs.datanode.data.dir这个指向的路径。我原以为hive会覆盖掉这个配置,看来不会。
再多问一句,你们从集群中提数据或分析不用hive使用什么工具呢?
追答我直接用Maprece或者spark等计算模型来编程分析数据,跟你用Hive的需求不太一样吧。