hadoop参数

YARN

参数 默认值 备注
yarn.nodemanager.container-metrics.enable false 关闭,避免nodemanager内存OOM,http://hackershell.cn/?p=993
yarn.resourcemanager.recovery.enabled true 启用 ResourceManager Recovery
yarn.scheduler.fair.continuous-scheduling-enabled true 启用 Fair Scheduler 持续调度
mapreduce.reduce.shuffle.memory.limit.percent 0.5
yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 0.95
mapreduce.task.userlog.limit.kb 0 102400  限制container输出的日志不要太大,设置为100MB,注意要设置log.backups,不然会使用内存
yarn.app.mapreduce.task.container.log.backups 0  1  备份文件个数
 yarn.scheduler.fair.max.assign  -1 10  在rm配置,一次分配中,每台机器最大分配任务数

HDFS

参数 默认值 配置位置 备注
fs.du.interval 1200000 磁盘du间隔,du对磁盘IO影响比较大
dfs.blockreport.initialDelay 180 延迟blockreport,避免重启时集中汇报
dfs.block.scanner.cursor.save.interval.ms  默认10分钟  10分钟保存一次scan cursor
dfs.block.scanner.volume.bytes.per.second  4194304  默认值1MB,磁盘扫描的限速,要注意看看扫描一个磁盘会不会太慢,但设的太高也会影响IO
dfs.datanode.scan.period.hours  3weeks 常规 磁盘扫描间隔
dfs.namenode.checkpoint.txns  10000000  namenode hdfs-site.xml  设置大一些,避免频繁的checkpoint传输
hadoop.user.group.static.mapping.overrides dr.who=; dr.who=;yarn=yarn,hadoop,supergroup;

mapred:mapred,hadoop,supergroup

覆盖组权限,需要配置在core-site.xml里面,需要重启namenode
dfs.namenode.posix.acl.inheritance.enabled  false true  在namenode hdfs-site.xml配置,在打上HDFS-6962补丁后,ACL mask权限能够继承
dfs.datanode.balance.max.concurrent.moves 5 50 平衡的线程数,用于提高平衡效率(需要在DataNode和Balance的hdfs-site配置,需要重启DataNode)
dfs.datanode.balance.bandwidthPerSec 10MB 30MB 平衡的速度
ha.failover-controller.new-active.rpc-timeout.ms 60000 300000 全局的core-site.xml里面配置(客户端和failover controller都会用到) failover controller在转换active等待的时间,在hdfs failover controller里面配置,如果时间不够会在failover controller里面看到超时错误日志。HDFS-11254 在replay editlog的时候也会很慢。
注意要先重启备机的controller,否则重启active controller,namenode会切换。
dfs.image.transfer.bandwidthPerSec 0 41943040 namenode hdfs-site.xml image传输限速,占用所有带宽会影响namenode rpc请求,重启active namenode才生效

 

HIVE

参数 默认值 建议值 备注
hive.metastore.failure.retries 1 3 metastore中途失败重试的次数,某个版本之前默认值是1,后面变为3
hive.metastore.try.direct.sql false Hive Metastore 是否应尝试使用直接 SQL 查询,而不是针对一定读取路径使用 DataNucleus。这样在获取许多分区时可以使 Metastore 性能得到数量级的提升。打开这个开关要确保打了补丁HIVE-15551,否则有内存泄露

HBASE

https://github.com/mattshma/bigdata/blob/master/hbase/docs/hbase_rpc.md

hbase.ipc.server.listen.queue.size   默认值 128

hbase.ipc.server.read.threadpool.size 默认值 10

hbase.regionserver.handler.count

hbase.regionserver.metahandler.count




fatkun

折腾一下又不会死~

没有评论


You can leave the first : )



发表评论

电子邮件地址不会被公开。