1. Google Cloud Platform setup
먼저, GCP에 들어가 VM을 만들어 준다. 이때, 총 4가지 VM을 만들어주는데 하나는 master node이고 3가지는 data node로 만들어준다.

이런 식으로 만들어 주면 namenode에서 다른 datanode를 관리하여 data를 처리할 수 있다.
2. Install Java
이제 각 VM에 java를 하나씩 설치해주고 환경변수도 수정해준다.
sudo apt-get install openjdk-8-jdk # download jdk8 which support hadoop2.9.x
java -version
# Edit the system Path file
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
echo $JAVA_HOME
export PATH=$PATH:$JAVA_HOME/bin
echo PATH
sudo vim /etc/environment
3. Install Hadoop
sudo apt-get install ssh
sudo apt-get install pdsh
# download hadoop2.9.2
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
tar xvzf hadoop-2.9.2.tar.gz /usr/local# unzip it
각 VM 머신에 hadoop을 다운로드하여 설치해준다.
4. Check Multi-node Hadoop Cluster setup
먼저, hadoop cluster에 접근 가능한 계정을 하나 만들어준다.
sudo -i
adduser hduser
각 VM머신에 해당 sshd_config 파일에 접근해 해당 부분을 yes로 수정해주고 restart해준다.
vi /etc/ssh/sshd_config
# set ChallengeResponseAuthentication and PasswordAuthentication to yes
service sshd restart
각 VM 머신의 ip를 확인 한 후, hosts파일에 모든 VM 머신의 정보를 추가해준다.
#get host information
hostname -i
hostname -f
#add host information of other VMs to host file
vi /etc/hosts
ssh key pair를 namenode에서 생성한 후, 각 datanode에 해당 ssh key pair를 복사해서 연결 해준다. 이렇게 할 경우 해당 datanode 접속 시 password없이 접근할 수 있다.
su hduser
cd ~
ssh-keygen -t rsa -P ""
# Send public key to datanode-1,2,3.
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@datanode-1
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@datanode-2
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@datanode-3
ssh-copy-id -i /home/hduser/.ssh/id_rsa.pub hduser@namenode-3
Hadoop configuration files에서 multi node를 사용하기 위해 hdfs-site.xml, core-site.xml, mapred-site.xml를 수정해 준다. 수정하는 사항은 아래 reference에 추가해 보았다.
5. Run multi-node Hadoop
start-dfs.sh 실행시 multi-node hadoop이 실행되는 것을 확인할 수 있다.

<VM ip>:50070에 접속 할 경우 아래 사진처럼 해당 multinode의 정보에 대해 구체적으로 알 수 있다.

6. Reference
How to set up multi node Hadoop cluster?
https://www.edureka.co/blog/setting-up-a-multi-node-cluster-in-hadoop-2.X/
Setting Up A Multi Node Cluster In Hadoop 2.X | Edureka Blog
In this blog post you will learn how to set up a multi node cluster in Hadoop 2.x. This Hadoop tutorial is a step-by-step guide to multi node cluster setup
www.edureka.co
'Hadoop' 카테고리의 다른 글
| [Hadoop] What is Pig? (4) | 2024.09.30 |
|---|---|
| YARN vs Multi Node Kubernetes (3) | 2024.06.27 |
| [Hadoop] Hadoop vs Spark (3) | 2024.06.08 |
| [Hadoop] What is HDFS ? (0) | 2024.06.01 |
| [Hadoop] What is map reduce?! (0) | 2023.03.14 |