Goal of Program

Yelp review dataset을 이용하여 4가지 task 수행하기

 

1. A-priori alogorithm을 사용하여 Single machine 에서 frequent pair 찾기

2. SON algorithm을 Map Reduce에서 사용하여 frequent pair 찾기

3. SON algorithm을 Map Reduce에서 사용하여 frequent triplets 찾기

4. PCY algorithm을 사용하여 frequent pair 찾기

 

Used Language

Python, Google Cloude Console(Environment)

 

 

My Review

이번 과제에서는 Yelp review 데이터 셋을 사용하여 리뷰들 중에서 자주 쓰는 pair들을 찾는 task였다. 이때 총 3가지 알고리즘을 사용하였는데 3가지 모두 처음 써본 알고리즘이라 생소했지만 각 알고리즘의 특징과 장단점들을 알 수 있어서 좋은 기회였다. 각 알고리즘은 Interested concept에 조금 더 상세히 적어보았다. 또한 이번에는 Mapper와 Reducer의 개수를 다르게 하여 속도를 비교해 볼 수 있었는데 데이터의 양에 따라 적당한 Mapper의 수와 Reduce의 수가 있음을 깨달았다. 특히 이번 과제에서는 hadoop을 돌릴때 항상 memory가 터져 에러가 많았는데 그 이유는 output의 양이 너무 많아서였다.(특히 task3) 그래서 mapper와 reducer를 짤 때는 항상 output의 양을 고려하면서 해야겠다는 것을 깨달았다. 많은 양의 데이터를 다룰때는 그에 따른 output의 양도 조절하여 해야겠다고 생각했다.

 

 

Project Code

https://github.com/guswns00123/Finding-Frequent-item-set.git

 

GitHub - guswns00123/Finding-Frequent-item-set

Contribute to guswns00123/Finding-Frequent-item-set development by creating an account on GitHub.

github.com

 

Intersted Concept

What is A-Priori algorithm?

https://guswns00123.tistory.com/32

 

[Algorithm] What is A-Priori Algorithm?

1. A-priori Algorithm 이란 ? 발생 빈도 기반 데이터 간의 또 다른 사건의 규칙을 발견하는 Algorithm이라 할 수 있다. Fig1.의 그림을 참고하여 A-Priori Algorithm을 설명하면 먼저 크게 Pass1,Pass 2과정이 있다

guswns00123.tistory.com

 

What is SON Algorithm?

https://guswns00123.tistory.com/33

 

[Algorithm] What is SON Algorithm ?

1. SON Algorithm이란 ? SON Algorithm은 baskets을 작은 chunk로 나누어 모든 frequent itemset을 찾는 것을 도와주는 Algorithm이다. 이때 이 Algorithm은 distributed/ parallel computing에 적합해 MapReduce를 활용하여 쓰이기

guswns00123.tistory.com

 

What is PCY Algorithm?

https://guswns00123.tistory.com/35

 

[Algorithm] What is PCY Algorithm ?

1. PCY Algorithm 이란 ? PCY Algorithm은 A-Priori Algorithm과 비슷하지만 그보다 메모리 공간을 더 효율적으로 활용하는 Algorithm이라고 할 수 있다. - Pass 1 Pass 1 에서는 각 item을 count 하여 저장하고 모든 pair

guswns00123.tistory.com

 

+ Recent posts