Hadoop的配置文件修改


Hadoop安装目录结构

  • bin:命令目录
  • sbin:Hadoop管理脚本,主要是HDFS和YARN的启动与停止
  • etc:Hadoop配置文件目录
  • include:对外开对方的API库(头文件,C++编写)
  • lib:动态库和静态库,与include目录中的文件结合调用
  • libexec:各个服务队shell配置文件目录,日志输出,启动参数等
  • share:Hadoop个模块编译后的jar包存放目录

Hadoop配置文件

  • hadoop-env.sh
  • Hadoop的运行环境配置文件
  • 一般只更改JAVA_HOME,保证Hadoop能够正确找到JDK的目录,不管系统是否找到

*-site.xml和*-default.xml

  • 优先执行*-site.xml文件
  • 如果没有配置-site.xml,则使用-default.xml

core-site.xml:核心配置文件

  • 指定NameNode的地址
<property>
​ <name>fs.defaultFS</name>
<value>hdfs://IP或者已经做完IP映射的ID:9000</value>
<!-- hdfs:// hdfs分布式文件系统​
gfs:// gfs分布式文件系统
file:// 本地文件系统
tfs://​
-->​​​
​</property>​

​​

  • 指定使用Hadoop时产生文件的存放目录
<property>
<name>hadoop.tmp.dir</name>​
<value>/home/oxygen/data</value>​
</property>​
hdfs-site.xml
  • 指定hdfs保存的副本数量,默认为3份(不配置该文件使用默认配置)
<configuration>
    <property>
         <name>dfs.replication</name>
         <value>2</value>
    </property>
</configuration>

mapred-site.xml

  • 告诉Hadoop以后MR运行在YARN上
<configuration>
   <property>
        <name>mapreduce.framework.name</name>
         <value>yarn</value>
    </property> 
</configuration>

yarn-site.xml

  • NameNodeManager获取数据的方式是shuffle
<property>
     <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
</property>
  • 指定Yarn的老大(ResourceManager)的地址,默认是local
<property>
      <name>yarn.resourcemanager.address</name>
       <value>IP或者做完IP映射的ID</value>
</property>

slaves

  • 帮助NameNode节点识别DataNode节点位置,填写DataNode的IP或者已经做完IP映射的ID

声明:楓の街|版权所有,违者必究|如未注明,均为原创|本网站采用BY-NC-SA协议进行授权

转载:转载请注明原文链接 - Hadoop的配置文件修改


Just For Fun...