Hive SQL控制map数和reduce数

发布网友发布时间：2022-12-08 18:50

共1个回答

热心网友时间：2023-06-29 11:01

读取小文件较多，那么则需要在map端进行小文件合并，参数设置如下：

-- 设置输入文件格式

set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

-- 是否支持可切分的CombieInputFormat ，true是支持

set hive.hadoop.supports.splittable.combineinputformat = true;

set maprece.input.fileinputformat.split.maxsize = 256000000;

set maprece.input.fileinputformat.split.minsize.per.node=256000000;

set maprece.input.fileinputformat.split.minsize.per.rack=256000000;

在设置动态分区后，产生的文件数会取决于map数和分区数的大小，假设动态分区初始有N个map数，同时生成M个分区，则中间会生成N*M个文件，通常这种情况就是让大部分数据尽量输出到一个rece中进行处理，但是有些HiveSql不会产生rece，也就是说文件最后没有进行合并处理，这种情况下可以用distribute by rand()的方式保证数据进行一次rece操作，实现文件的合并。

两种处理方式参数设置如下：

a. 设置rece个数

set mapred.rece.tasks=50;

insert into table xxx

select * from xxx distribute by rand();

备注：set设置的参数是生成的文件个数，distribute by rand()保证数据随机分配到50个文件中。

b. 设置每个recer处理的数据

set hive.exec.recers.bytes.per.recer=5120000000;

insert into table xxx

select * from xxx distribute by rand();

备注：set设置的参数是生成的文件大小，distribute by rand()保证数据的平均大小是512Mb。