YARN
参数 | 默认值 | 值 | 备注 |
yarn.nodemanager.container-metrics.enable | false | 关闭,避免nodemanager内存OOM,http://hackershell.cn/?p=993 | |
yarn.resourcemanager.recovery.enabled | true | 启用 ResourceManager Recovery | |
yarn.scheduler.fair.continuous-scheduling-enabled | true | 启用 Fair Scheduler 持续调度 | |
mapreduce.reduce.shuffle.memory.limit.percent | 0.5 | ||
yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage | 0.95 | ||
mapreduce.task.userlog.limit.kb | 0 | 102400 | 限制container输出的日志不要太大,设置为100MB,注意要设置log.backups,不然会使用内存 |
yarn.app.mapreduce.task.container.log.backups | 0 | 1 | 备份文件个数 |
yarn.scheduler.fair.max.assign | -1 | 10 | 在rm配置,一次分配中,每台机器最大分配任务数 |
HDFS
参数 | 默认值 | 值 | 配置位置 | 备注 |
fs.du.interval | 1200000 | 磁盘du间隔,du对磁盘IO影响比较大 | ||
dfs.blockreport.initialDelay | 180 | 延迟blockreport,避免重启时集中汇报 | ||
dfs.block.scanner.cursor.save.interval.ms | 默认10分钟 | 10分钟保存一次scan cursor | ||
dfs.block.scanner.volume.bytes.per.second | 4194304 | 默认值1MB,磁盘扫描的限速,要注意看看扫描一个磁盘会不会太慢,但设的太高也会影响IO | ||
dfs.datanode.scan.period.hours | 3weeks | 常规 磁盘扫描间隔 | ||
dfs.namenode.checkpoint.txns | 10000000 | namenode hdfs-site.xml | 设置大一些,避免频繁的checkpoint传输 | |
|
||||
dfs.namenode.posix.acl.inheritance.enabled | false | true | 在namenode hdfs-site.xml配置,在打上HDFS-6962补丁后,ACL mask权限能够继承 | |
dfs.datanode.balance.max.concurrent.moves | 5 | 50 | 平衡的线程数,用于提高平衡效率(需要在DataNode和Balance的hdfs-site配置,需要重启DataNode) | |
dfs.datanode.balance.bandwidthPerSec | 10MB | 30MB | 平衡的速度 | |
ha.failover-controller.new-active.rpc-timeout.ms | 60000 | 300000 | 全局的core-site.xml里面配置(客户端和failover controller都会用到) | failover controller在转换active等待的时间,在hdfs failover controller里面配置,如果时间不够会在failover controller里面看到超时错误日志。HDFS-11254 在replay editlog的时候也会很慢。 注意要先重启备机的controller,否则重启active controller,namenode会切换。 |
dfs.image.transfer.bandwidthPerSec | 0 | 41943040 | namenode hdfs-site.xml | image传输限速,占用所有带宽会影响namenode rpc请求,重启active namenode才生效 |
HIVE
参数 | 默认值 | 建议值 | 备注 |
hive.metastore.failure.retries | 1 | 3 | metastore中途失败重试的次数,某个版本之前默认值是1,后面变为3 |
hive.metastore.try.direct.sql | false | Hive Metastore 是否应尝试使用直接 SQL 查询,而不是针对一定读取路径使用 DataNucleus。这样在获取许多分区时可以使 Metastore 性能得到数量级的提升。打开这个开关要确保打了补丁HIVE-15551,否则有内存泄露 | |
没有评论
You can leave the first : )