当前位置:首页 » 《随便一记》 » 正文

亲测有用!Centos7 + Zookeeper集群 + Hadoop集群配置_Libre813的博客

11 人参与  2021年11月08日 17:03  分类 : 《随便一记》  评论

点击全文阅读


一、网络配置:

1.1 配置单机网络:

1.2 关闭防火墙:

1.3 SSH连接Centos7:

1.4 配置hosts文件:

二、JDK配置:

 三、Zookeeper集群配置:

四、Hadoop集群配置:

4.1 文件建立

4.2 JAVA路径设置

4.2.1 hadoop-env.sh配置

4.2.2  yarn-env.sh配置

 4.3 Hadoop集群文件配置

 4.3.1 core-site.xml配置

4.3.2 hdfs-site.xml配置:

4.3.3 mapred-site.xml配置

4.4 Hadoop集群搭建

4.4.1 克隆节点

4.4.2 配置免密登录 

4.4.3 启动Zookeeper

4.4.4 启动Hadoop集群


一、网络配置:

1.1 配置单机网络:

        配置虚拟机网络之前,我们需要打开cmd输入ipconfig,得到:

         IPv4 地址以及默认网关中显示的是为物理机的ip地址,在ip地址中各类网络地址的子网都是不同的。

例如:172.16.x.x是指B类网络地址,而.x.x则是在整个172.16下的子网ip地址

         因此,在编辑Centos7的网络地址的时候,需要找到自己的网络地址,可以通过子网掩码进行确认几类网络地址,之后通过VM-编辑-虚拟机网络编辑进行修改,即:

        通过学习网络上其他大佬的文章,子网IP选择和物理机的Network地址一致,Host地址不一致,可以为之后深入Centos学习节约一点时间。

        进入Centos7界面之后,选择root用户登录,之后进入终端,输入ifconfig可以看到自己的网络地址:

         如果是没配置过网络的Centos7,则这是配置完网络之后应该出现的截图。通过修改ifcfg-ens33文件实现对Centos7网络配置:

vim /etc/sysconfig/network-scripts/ifcfg-ens33 

        进入ens33文件之后,需要配置的是

BOOTPROTO = “static”

ONBOOT=yes

IPADDR=Network地址+自己设置的host地址

        host地址一般是从129开始,而搭建hadoop集群所需要的其他节点host设置,则是在master机器的host地址之上迭代+1。

GATEWAY=Network地址+2 例如172.16.1.2

        NETMASK地址以及DNS地址可以选择填写或者不填,在下图示例中是没有填写进去。

NETMASK=几类地址的子网掩码,例如255.255.255.0是C类地址的子网掩码

DNS=8.8.8.8,这个属于Google公司的dns码

         修改完ens33文件之后,保存并重启网络:

 service network restart

         再输入ifconfig,则可以看到自己刚刚在上面所设置的ip地址。

1.2 关闭防火墙:

        几乎现在每一台计算机系统都有配置自己的防火墙,而防火墙可以避免我们的计算机陷入不安全的环境当中。但是基于对Hadoop集群的学习以及是在VM虚拟机里面,因此我们可以选择直接关闭防火墙的自启动,避免每一次登录Centos7都会发生防火墙隔离的问题。但如果是基于自己系统里面,我建议每一次使用前再关闭防火墙。

systemctl stop firewalld.service #停止防火墙
systemctl status firewalld.service #查看防火墙状态
systemctl disable firewalld.service #关闭防火墙

        在Centos7里面,stop、start、status、disable以及restart分别对应着操作中的停止、开始、状态、禁止、重启的操作逻辑,因此,在操作其他语句时,我们亦可以尝试使用。

1.3 SSH连接Centos7:

        这里阐述的是通过SSH软件MobaXterm(官网有免费版本,学习用的小伙伴可以和我一样使用免费版本降低学习成本)连接VM虚拟机中的Centos7的教程:

        首先,我使用ssh软件的目的是因为VM虚拟机进行本机切换是需要输入CTRL+ALT跳出虚拟机操作界面,这使得我学习之路有点难受。因此,我选择使用SSH软件连接VM虚拟机中的Centos7,可以避免这个问题。同时,有些人无法从主机上传文件到虚拟机中(具体解决办法可以查询其他大佬的文章)或指定目录,而SSH软件帮助我们迅速的解决这一问题。

        从官网下载MobaXterm软件是纯英文版本,而如何进行远程连接呢?首先我们需要将修改虚拟机的IP地址(这一步,我们已经完成),之后选择MobaXterm中的:

后输入自己的Centos7中的IP地址,以及相关账号的姓名之后:

         点击OK,并在命令行界面中输入密码,实现Centos7命令行界面使用(这过程中VM虚拟机中的Centos7需要保持启动状态)。

1.4 配置hosts文件:

        这一步,是提前进行hosts文件配置,我们也可以在克隆完成之后再进行,并通过SCP命令将hosts文件进行同步。

        首先,我们先进行主机名字的修改:

hostnamectl set-hostname master #每台机器的主机名需要不同
hostnamectl set-hostname slave1 #推荐使用master、slave1、slave2
hostnamectl set-hostname slave2 
.
.
.

         并输入bash进行刷新,然后打开HOSTS文件进行配置:

vim /etc/hosts     #输入IP地址 主机名
                   #有多少台节点就输入多少IP地址和主机名
                   #需要区分IP地址

        配置完成之后,需要保证每一台节点的主机名和IP地址与HOSTS文件中写入的一致性 

二、JDK配置:

         配置Hadoop以及Zookeeper之前,我们还需要对Centos7中的JDK环境进行配置。虽然在Centos7中,我们已经有系统自带的JDK环境:

java -version

         但是,系统自带的JDK可能会与我们使用的Hadoop与Zookeeper造成错误,因此我们需要对自带的JDK进行删除,可以输入下面这行代码,查找到所有与JAVA有关的文件。

rpm -qa | grep java

         而删除自带的JDK,我们只需要删除所有带有OPENJDK文件,例如:

rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

        将所有OPENJDK文件删除之后,我们输入java -version命令可以得到:

        这样一来,我们的自带JDK系统已经删除完毕。然后,进入JDK官网下载Linux版本的JDK。注意,不需要下载太高版本的JDK,否则会因为JDK自带因素导致无法正常运行Hadoop和Zookeeper(亲身体验过安装没问题,启动一直报错的痛苦),推荐下载Java 8

         将下载完成的JDK文件导入Centos7中,如果是使用Vm虚拟机,需要注意当前用户是ROOT或者是普通用户,避免找不到文件位置,而使用SSH连接软件,需要注意上传目录是在哪里。

        上传之后,对JDK进行解压,JDK文件名代表着JDK-版本-操作系统-x64/32位,因此建议使用TAB键完成JDK文件名的匹配。

tar -zxvf jdk-8u301-linux-x64.tar.gz

        解压之后,使用:

mv jdk1.8.0_301/ /usr/local/java

        将JDK文件移到/USR/LOCAL/下面,并重命名为JAVA,可以通过ls命令进行确认。需要注意的是本文全程使用的是ROOT用户进行安装。

        解压完JDK,我们需要对JAVA进行环境配置,类似于Windows的环境配置:

vim /etc/profile

        打开编辑/ETC/PROFILE文件之后,新建一行,并将JAVA所在位置等信息进行写入,即:

#java
export JAVA_HOME=/usr/local/java  #JAVA所在实际文件位置
export  CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin

        完成之后,重启PROFILE文件(推荐):

source /etc/profile

我们可以通过JAVA -VERSION命令进行查看:

 三、Zookeeper集群配置:

        Zookeeper的安装文件是从官网中下载,注意的是Zookeeper的版本不要最新,也不要太过老(因为有些版本的STATUS会发生No Runing现象,本文以Zookeeper3.6.3为例)。

将zookeeper导入到Centos7,进行解压、移动的操作:

tar -zxvf  zookeeper-xxxx.tar.gz    #tab补全
mv zookeeper-xxx /usr/local/zookeeper  #tab补全
cd /usr/local/zookeeper

        在zookeeper文件路径下,建立DATA文件目录和LOGS文件目录:

mkdir data;mkdir logs

        并且,将ZOOKEEPER文件目录下的CONF文件目录下的zoo_sample.cfg文件进行复制粘贴重命名操作:

cp zoo_sample.cfg zoo.cfg

        进入到zoo.cfg文件编辑中,修改以下图所示:

 

         代码:

dataDir=/usr/local/zookeeper/data        #data存放地方
dataLogDir=/usr/local/zookeeper/logs     #log存放地方


clientPortAddress=192.168.x.x        #本机IP,避免localhost现象,可以不加

server.0=192.168.x.x:2888:3888       #server0-2指的是节点,一般用的是1-250
server.1=192.168.x.y:2888:3888       #填入多台Centos7的IP地址
server.2=192.168.x.z:2888:3888       #2888是内部通信地址,3888是选举leader使用

         保存后: 

cd /usr/local/zookeeper/data          #到data地址
mkdir myid                            #建立myid文件,需要和server.匹配
echo 0 >> myid                        #通过echo将id写入myid

          如果要将Zookeeper文件在任意目录下调用,需要编辑PROFILE文件:

vim /etc/profile

#zookeeper                                    #输入
export ZOOKEEPER_HOME=/usr/local/zookeeper    #所在位置
export PATH=$PATH:$ZOOKEEPER_HOME/bin

         因为我们配置的是ZOOKEEPER集群,因此启动前需要保证所有节点都启动。如果是按照本文顺序先配置单机,再克隆出其他节点的话,现在启动ZOOKEEPER会出现其他节点报错的信息:

/usr/local/zookeeper/bin/zkServer.sh start     #在zookeeper/bin路径下进行配置

        启动成功截图(三台节点同时在线)为:

         后将 START 换成 STATUS/STOP则分别是上文中所提及的状态以及停止服务。

         同时,如果我们想一键启动ZOOKEEPER则可以通过在ROOT目录或其他路径下建立一个.sh文件进行操作,同时需要用CHMOD命令进行权限给予 chmod 775 文件名.sh

#! /bin/bash

case $1 in
"start"){
 for i in 192.168.x.x 192.168.x.y 192.168.x.z     #三台机的主机名或IP地址
 do
  ssh $i "/usr/local/zookeeper/bin/zkServer.sh start"  #同一个路径下
 done
};;
"stop"){
 for i in 192.168.x.x 192.168.x.y 192.168.x.z
 do
  ssh $i "/usr/local/zookeeper/bin/zkServer.sh stop"
 done
};;
"status"){
 for i in 192.168.x.x 192.168.x.y 192.168.x.z
 do
  ssh $i "/usr/local/zookeeper/bin/zkServer.sh status"
 done
};;
esac

四、Hadoop集群配置:

4.1 文件建立

        首先,我们需要从官网中下载Hadoop文件到本机中,并上传到Centos7。之后进行重复上文的动作,将Hadoop文件解压,并移动到/USR/LOCAL路径下:

tar -zxvf hadoop-2.10.1.tar.gz       #tab补齐即可
mv hadoop-2.10.1/ /usr/local/hadoop  #会重命名为hadoop文件
cd /usr/local/hadoop/                #到路径下,如果找不到则是路径写错了

        同样,如果我们要在任意目录下启动Hadoop集群,则需要将Hadoop路径写入到PROFILE路径下面:

vim /etc/profile                 

#hadoop
export HADOOP_HOME=/usr/local/hadoop     #Hadoop路径
export PATH=$PATH:${HADOOP_HOME}/bin

        编辑完成之后,通过重启PROFILE文件进行测试:

source /etc/profile
had                               #当tab能自动补齐时,则编辑成功

        现在,我们需要知道的是Hadoop集群是需要进行数据存储,因此我们需要建立一个DATA文件进行数据存储。

mkdir -p /usr/local/data/temp
mkdir -p /usr/local/data/hdfs/name
mkdir -p /usr/local/data/hdfs/data

        当我们将这些外部东西设置好了之后,我们需要进行内部“装饰”,首先需要我们在Hadoop文件夹下,然后进入到ETC/HADOOP目录下:

cd etc/hadoop/

4.2 JAVA路径设置

        接下来,大家如果怕自己编辑文件错误,可以通过CP命令将文件复制一份重命名为其他,进行备份。然后,我们开始编辑,首先是将JAVA路径配置进去。

4.2.1 hadoop-env.sh配置

        编辑hadoop-env.sh文件:

vim hadoop-env.sh

        然后在文件中查找找到JAVA_HOME,插入下面的代码,并把之前的JAVA_HOME进行屏蔽:

export JAVA_HOME=/usr/local/java         #java所在路径

        如图:

4.2.2  yarn-env.sh配置

        编辑 yarn-env.sh文件:

vim yarn-env.sh

        同样的查找到文件中的JAVA_HOME路径,将之前的屏蔽掉后插入下面代码:

export JAVA_HOME=/usr/local/java         #java所在路径

        如图:

 4.3 Hadoop集群文件配置

        接下来进行Hadoop集群文件的配置,还是那一句话,如果担心配置错误的话,建议可以CP文件进行备份。所有代码都要输入到<configuration></configuration>

 4.3.1 core-site.xml配置

        编辑core-site.xml文件:

vim core-site.xml

        输入以下代码:


<property>

<name> fs.default.name </name>

<value>hdfs://master:9000</value>            #masterIP地址

<description>指定HDFS的默认名称</description>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>              #masterIP地址

<description>HDFS的URI</description>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/data/tmp</value>           #上文中建立的data文件

<description>节点上本地的hadoop临时文件夹</description>

</property>
        <!--流文件的缓冲区单位KB-->
        <property>
                <name>io.file.buffer.size</name>
                <value>4096</value>
        </property>
  <!--执行zookeeper地址 -->
<property>
  <name>ha.zookeeper.quorum</name>         #zookeeper的IP需要与下面输入一致
 <value>master:2181,slave1:2181,slave2:2181</value>
 </property>

4.3.2 hdfs-site.xml配置:

        编辑hdfs-site.xml文件:

vim hdfs-site.xml

        输入以下代码:


<property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/usr/local/data/hdfs/name</value>     #根据实际修改

<description>namenode上存储hdfs名字空间元数据 </description>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/usr/local/data/hdfs/data</value>     #根据实际修改

<description>datanode上数据块的物理存储位置</description>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>3</value>

<description>副本个数,默认是3,应小于datanode机器数量</description>

    </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop01:50090</value>             #根据实际修改
                <!-- hadoop01是master 的 主机名 -->
        </property>

4.3.3 mapred-site.xml配置

        由于mapred-site.xml被Hadoop文件自动设置了.template,因此需要首先去掉.template才能使用,推荐以下操作:

cp mapred-site.xml.template mapred-site.xml

        编辑mapred-site.xml

vim mapred-site.xml

        输入以下代码:

<property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

<description>指定mapreduce使用yarn框架</description>

</property>

4.3.4 yarn-site.xml配置

        编辑yarn-site.xml

vim yarn-site.xml

        输入以下代码

<property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop01</value>            #推荐master

<description>指定resourcemanager所在的hostname</description>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>
      

</property>

4.3.5 slaves文件配置

        到这一步,我们需要先编辑slaves文件:

vim slaves

        然后,把LOCALHOST给删除,更换成SLAVE1、SLAVE2

slave1        #或者是IP地址
slave2

4.4 Hadoop集群搭建

4.4.1 克隆节点

        首先,我们关闭现在的Centos7

shutdown now

        然后,右键虚拟机,选择管理-克隆-完整克隆(注意不要把克隆机放在C盘,不然你会发现C盘又被占用了点空间),如图:

        克隆好两台Centos7后,我们可以发现现在只需要修改ENS33文件中的IP地址、ZOOKEEPER文件目录下的DATA目录下的MYID,以及主机名即可,具体操作如下:

        修改ens33文件:

vim /etc/sysconfig/network-scripts/ifcfg-ens33 

         修改地方如图:

        同时,需要我们输入的IP地址和HOSTS文件的IP地址一致,否则无法启动SSH免密登录,查看的代码:

cat /etc/hosts    #需要修改则将cat和vim互换

         Myid修改的代码如下:

cd /usr/local/zookeeper/data          #到data地址     
echo 1 >> myid                        #通过echo将id写入myid

        注意的地方是,MYID的ID需要和server.x相匹配,同时也需要保证server.x的IP和HOSTS文件的IP一致

        主机名修改的代码如下:

hostnamectl set-hostname slave1 #推荐使用master、slave1、slave2
hostnamectl set-hostname slave2 
.
.
.

         然后重启:

reboot

         测试是否可以连接

ping 主机名     #也可以是主机的IP

        然后,如图:

4.4.2 配置免密登录 

        现在我们需要实现的是A机免密访问B机,同时B机也可以免密访问A机。

ssh-keygen -t rsa             #在master上,三次回车即可

         将master公钥拷贝在一个文件里面

cat id_rsa.pub >> authorized_keys

        然后把其他节点的密码也输入到同一个文件,需要登录其他节点

ssh slave1                   #slave1为节点名
ssh-copy-id -i master        #master主机名或IP地址

        回到master主机上,输入:

chmod 600 authorized_keys
chmod 700 .ssh

        然后通过SCP把authorized_keys传到其他节点上:

scp /root/.ssh/authorized_keys slave1:/root/.ssh/

        通过SSH其他节点,测试是否成功 

ssh 节点名           #注意第一次启动需要密码,接下里就不用

4.4.3 启动Zookeeper

        输入JPS,保证自己节点机器上没有运行ZOOKEEPER,如图:

        然后在集群节点下面输入以下代码,或者是用.sh文件一键启动,可以用STATUS或者是JPS查看:

/usr/local/zookeeper/bin/zkServer.sh start     #在zookeeper/bin路径下进行配置

4.4.4 启动Hadoop集群

       第一次启动Hadoop集群,需要在master节点上格式化,代码如下:

hdfs namenode -format

       然后格式化后,输入以下代码,启动Hadoop集群:

/usr/local/hadoop/sbin/start-all.sh start

        如图,可以通过JPS查看进程:

        到目前为止,HADOOP集群和ZOOKEEPER集群配置完成。

        如果大家觉得不错的话可以给波支持,写这一波文章,主要是为了提升自己对HADOOP的理解,接下里我还会继续更新对HADOOP学习,冲!


点击全文阅读


本文链接:http://m.zhangshiyu.com/post/30665.html

文件  配置  地址  
<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1