Goal of Program
주어진 연관있는(follower와 followee) 블로그 pair datasets을 이용하여 4가지 task 수행하기
이때, datasets 들은 크게 3가지(small, medium, large)로 나뉘어 3가지를 모두 수행할 수 있는 프로그램을 만드는 것이 목적
1. 각 블로그 pair들을 구하고, 해당 blog pair의 공통되는 followee들과 그 숫자 구하기
2. Similarity가 가장 높은 top 3 blog pair들을 구하고 해당 Similarity도 구하기
3. blog와 blog가 속해 있는 community가 나온 dataset을 이용하여 각 community에 속한 blog 총 수 구하기
4. (1)에 했던 문제를 medium dataset을 이용해서 mapper와 reducer 수를 다르게하여 total time 비교해보기
Used Language
Python, Google Cloude Console(Environment)
My Review
이번 Hadoop program은 구글클라우드에서 수행해보았다. 구글클라우드 같은경우도 AWS와 비슷하게 작동시킬 수 있었고 instance를 총 4개를 만들어 1개의 namenode와 3개의 datanode를 구성시켰다. 또한 이번 과제는 Python으로 진행하였는데 자바로 만든 Hadoop과 다르게 나한텐 편리하였다. 자바에서는 프로그램 안에서 직접 어떻게 Hadoop을 수행할지 적었었는데 Python의 경우 실행할때 명령어를 이용하여 Mapper, Reducer의 개수를 설정할 수 있었고 Mapper와 Reducer 프로그램을 따로 구성 시킬 수 있어서 디버깅할때도 편리하였다. 이번 과제에서는 직접 프로그램에 대해 실행했던 과정을 report로 작성도 해보았는데 이것 또한 Github에 같이 올려놓아서 나중에 같이보면 훨씬 이해하기 쉬울 것 같다.
Project Code
https://github.com/guswns00123/Community-Detection-in-SNS.git
GitHub - guswns00123/Community-Detection-in-SNS
Contribute to guswns00123/Community-Detection-in-SNS development by creating an account on GitHub.
github.com
Interested Concept
How to install Hadoop in GCP ?
https://guswns00123.tistory.com/24
[Hadoop] How to install Hadoop in GCP?
1. Google Cloud Platform setup 먼저, GCP에 들어가 VM을 만들어 준다. 이때, 총 4가지 VM을 만들어주는데 하나는 master node이고 3가지는 data node로 만들어준다. 이런 식으로 만들어 주면 namenode에서 다른 datano
guswns00123.tistory.com
'과제' 카테고리의 다른 글
| [Project] Make K-means Clustering Program (0) | 2023.09.02 |
|---|---|
| [Project] Finding frequent item sets (1) | 2023.07.31 |
| [Group Project] CU advanced Course Selection System (1) | 2023.07.11 |
| [Project] Make deduplication program (1) | 2023.06.27 |
| [Project] Make Dijkstra program by using Hadoop (2) | 2023.06.12 |