by shigemk2

当面は技術的なことしか書かない

memo: CDH5

memo: CDH5

CDH5のインストールガイド

http://www.cloudera.com/documentation/cdh/5-1-x/CDH5-Installation-Guide/CDH5-Installation-Guide.html

設定ファイルの場所とか

https://www.cloudera.com/documentation/enterprise/5-7-x/topics/cm_mc_service_config_overview.html

HADOOP_MAPRED_HOMEの設定(SqoopをYARNで実行するなどに必要)

https://www.cloudera.com/documentation/enterprise/5-5-x/topics/cdh_ig_mapred_home_set1.html

YARNのチューニング

https://www.cloudera.com/documentation/enterprise/5-6-x/topics/cdh_ig_yarn_tuning.html

S3ファイルシステムのチューニング

https://www.cloudera.com/documentation/enterprise/5-12-x/topics/admin_hive_on_s3_tuning.html

S3ファイルシステムのチューニングの中の一節

If you have a large number of concurrent Hive query operations running, a deadlock might occur in the S3AFileSystem class of the Hadoop platform. This is caused by thread pool limits and causes HiveServer2 to freeze. If this occurs, you must restart HiveServer2. To work around the issue, increase the values of fs.s3a.threads.core and fs.s3a.threads.max.

Hiveでクエリを投げすぎるとS3AFileSystemのなかでデッドロックが起きる。これが起きたらHiveServer2を再起動するしかない。この問題に対処するためにはfs.s3a.threads.coreもしくはfs.s3a.threads.maxの数値を上げるしかない。というところの参考Issue

https://issues.apache.org/jira/browse/HADOOP-13826