[Hadoop] PIG vs HIVE :: My Engineer Study Story

[Hadoop] PIG vs HIVE

Morzi 2024. 10. 11. 16:05

2024. 10. 11. 16:05

공통점

Hive와 PIG는 둘 다 Hadoop 기반의 데이터 처리 도구입니다. 기본적으로 두 처리 도구 전부 내부에서 맵리듀스 프레임워크를 사용하여 데이터 처리 작업을 수행

차이점

Hive는 SQL과 비슷한 HiveQL 쿼리 언어를 사용하여 대화형으로 데이터를 처리하는 데 중점을 두며, SQL에 익숙한 사용자나 대화형으로 데이터를 처리하려는 경우 유용
PIG는 데이터 처리 작업을 위해 스크립트 언어를 사용하며, 스크립트는 데이터 흐름을 정의하고, 중간 처리 결과를 다양한 방식으로 조작하고, 최종 결과를 생성하는 방식을 동작
PIG는 복잡한 데이터 처리 작업을 위해 구성 가능하며, 유연성과 확장성이 뛰어남

두 도구를 함께 사용하는 것도 가능!

=> PIG로 처리한 중간 결과를 Hive로 불러와서 SQL 쿼리로 분석 or Hive에서 처리된 결과를 PIG 스크립트로 조작

PIG is good at !

JOIN 기능에서 성능적으로 좋음 : PIG의 실행계획과 함께 작업을 실행하면 여러개의 테이블을 조인하여 셔플링 작업이 진행될 때 실행계획으로 인해 여러 대안 중 하나를 선택하여 최적화 시켜줌

=> 즉, 옵티마이저를 실행 하기에 가장 효율적은 방안을 제시

구조화 되지 않은 데이터 처리에 적합
성능 최적화 가능성 : PIG는 개발자가 직접 작업의 최적화 단계를 제어할 수 있는 기능을 제공하며, 이를 통해 HIVE보다 더 세밀하게 성능을 튜닝할 수 있는 여지를 줌. HIVE는 SQL 기반으로 자동 최적화를 수행하지만, 모든 경우에 최적화가 이상적으로 작동하지 않을 수 있음

HIVE is good at !

구조화된 데이터 분석에 적합 :대규모 테이블을 SQL 방식으로 쉽게 처리 가능
쿼리 실행 시 자동으로 최적화 단계를 거침
BI 통합 가능성 : SQL 기반으로 다양한 BI 툴과 쉽게 연동 가능
데이터 관리 편의성 : 테이블 기반의 스키마 관리로, 데이터의 일관성 및 구조적 관리 가능

'Hadoop' 카테고리의 다른 글

[Hadoop] What is Hive? (0)	2024.10.05
[Hadoop] What is Pig? (4)	2024.09.30
YARN vs Multi Node Kubernetes (3)	2024.06.27
[Hadoop] Hadoop vs Spark (3)	2024.06.08
[Hadoop] What is HDFS ? (0)	2024.06.01

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바