1. Google Cloud Platform setup

먼저, GCP에 들어가 VM을 만들어 준다. 이때, 총 4가지 VM을 만들어주는데 하나는 master node이고 3가지는 data node로 만들어준다. 

GCP instance

이런 식으로 만들어 주면 namenode에서 다른 datanode를 관리하여 data를 처리할 수 있다.

 

2. Install Java

이제 각 VM에 java를 하나씩 설치해주고 환경변수도 수정해준다.

sudo apt-get install openjdk-8-jdk # download jdk8 which support hadoop2.9.x
java -version

# Edit the system Path file
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
echo $JAVA_HOME
export PATH=$PATH:$JAVA_HOME/bin
echo PATH
sudo vim /etc/environment

 

 

3. Install Hadoop

sudo apt-get install ssh
sudo apt-get install pdsh
# download hadoop2.9.2
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
tar xvzf hadoop-2.9.2.tar.gz /usr/local# unzip it

각 VM 머신에 hadoop을 다운로드하여 설치해준다.

 

 

4. Check Multi-node Hadoop Cluster setup

먼저, hadoop cluster에 접근 가능한 계정을 하나 만들어준다.

sudo -i
adduser hduser

 

각 VM머신에 해당 sshd_config 파일에 접근해 해당 부분을 yes로 수정해주고 restart해준다.

vi /etc/ssh/sshd_config
# set ChallengeResponseAuthentication and PasswordAuthentication to yes
service sshd restart

각 VM 머신의 ip를 확인 한 후, hosts파일에 모든 VM 머신의 정보를 추가해준다.

#get host information
hostname -i
hostname -f
#add host information of other VMs to host file
vi /etc/hosts

 

ssh key pair를 namenode에서 생성한 후, 각 datanode에 해당 ssh key pair를 복사해서 연결 해준다. 이렇게 할 경우 해당 datanode 접속 시 password없이 접근할 수 있다.

su hduser
cd ~
ssh-keygen -t rsa -P ""
# Send public key to datanode-1,2,3.
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@datanode-1
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@datanode-2
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@datanode-3
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@namenode-3

 

Hadoop configuration files에서 multi node를 사용하기 위해 hdfs-site.xml, core-site.xml, mapred-site.xml를 수정해 준다. 수정하는 사항은 아래 reference에 추가해 보았다.

 

 

5. Run multi-node Hadoop

start-dfs.sh 실행시 multi-node hadoop이 실행되는 것을 확인할 수 있다.

 

<VM ip>:50070에 접속 할 경우 아래 사진처럼 해당 multinode의 정보에 대해 구체적으로 알 수 있다.

 

6. Reference

How to set up multi node Hadoop cluster?

https://www.edureka.co/blog/setting-up-a-multi-node-cluster-in-hadoop-2.X/

 

Setting Up A Multi Node Cluster In Hadoop 2.X | Edureka Blog

In this blog post you will learn how to set up a multi node cluster in Hadoop 2.x. This Hadoop tutorial is a step-by-step guide to multi node cluster setup

www.edureka.co

 

'Hadoop' 카테고리의 다른 글

[Hadoop] What is Pig?  (4) 2024.09.30
YARN vs Multi Node Kubernetes  (3) 2024.06.27
[Hadoop] Hadoop vs Spark  (3) 2024.06.08
[Hadoop] What is HDFS ?  (0) 2024.06.01
[Hadoop] What is map reduce?!  (0) 2023.03.14

+ Recent posts