공통점
- Hive와 PIG는 둘 다 Hadoop 기반의 데이터 처리 도구입니다. 기본적으로 두 처리 도구 전부 내부에서 맵리듀스 프레임워크를 사용하여 데이터 처리 작업을 수행
차이점
- Hive는 SQL과 비슷한 HiveQL 쿼리 언어를 사용하여 대화형으로 데이터를 처리하는 데 중점을 두며, SQL에 익숙한 사용자나 대화형으로 데이터를 처리하려는 경우 유용
- PIG는 데이터 처리 작업을 위해 스크립트 언어를 사용하며, 스크립트는 데이터 흐름을 정의하고, 중간 처리 결과를 다양한 방식으로 조작하고, 최종 결과를 생성하는 방식을 동작
- PIG는 복잡한 데이터 처리 작업을 위해 구성 가능하며, 유연성과 확장성이 뛰어남
두 도구를 함께 사용하는 것도 가능!
=> PIG로 처리한 중간 결과를 Hive로 불러와서 SQL 쿼리로 분석 or Hive에서 처리된 결과를 PIG 스크립트로 조작
PIG is good at !
- JOIN 기능에서 성능적으로 좋음 : PIG의 실행계획과 함께 작업을 실행하면 여러개의 테이블을 조인하여 셔플링 작업이 진행될 때 실행계획으로 인해 여러 대안 중 하나를 선택하여 최적화 시켜줌
=> 즉, 옵티마이저를 실행 하기에 가장 효율적은 방안을 제시
- 구조화 되지 않은 데이터 처리에 적합
- 성능 최적화 가능성 : PIG는 개발자가 직접 작업의 최적화 단계를 제어할 수 있는 기능을 제공하며, 이를 통해 HIVE보다 더 세밀하게 성능을 튜닝할 수 있는 여지를 줌. HIVE는 SQL 기반으로 자동 최적화를 수행하지만, 모든 경우에 최적화가 이상적으로 작동하지 않을 수 있음
HIVE is good at !
- 구조화된 데이터 분석에 적합 :대규모 테이블을 SQL 방식으로 쉽게 처리 가능
- 쿼리 실행 시 자동으로 최적화 단계를 거침
- BI 통합 가능성 : SQL 기반으로 다양한 BI 툴과 쉽게 연동 가능
- 데이터 관리 편의성 : 테이블 기반의 스키마 관리로, 데이터의 일관성 및 구조적 관리 가능
'Hadoop' 카테고리의 다른 글
| [Hadoop] What is Hive? (0) | 2024.10.05 |
|---|---|
| [Hadoop] What is Pig? (4) | 2024.09.30 |
| YARN vs Multi Node Kubernetes (3) | 2024.06.27 |
| [Hadoop] Hadoop vs Spark (3) | 2024.06.08 |
| [Hadoop] What is HDFS ? (0) | 2024.06.01 |