공통점

  • Hive와 PIG는 둘 다 Hadoop 기반의 데이터 처리 도구입니다. 기본적으로 두 처리 도구 전부 내부에서 맵리듀스 프레임워크를 사용하여 데이터 처리 작업을 수행

차이점

  • Hive는 SQL과 비슷한 HiveQL 쿼리 언어를 사용하여 대화형으로 데이터를 처리하는 데 중점을 두며, SQL에 익숙한 사용자나 대화형으로 데이터를 처리하려는 경우 유용
  • PIG는 데이터 처리 작업을 위해 스크립트 언어를 사용하며, 스크립트는 데이터 흐름을 정의하고, 중간 처리 결과를 다양한 방식으로 조작하고, 최종 결과를 생성하는 방식을 동작
  • PIG는 복잡한 데이터 처리 작업을 위해 구성 가능하며, 유연성과 확장성이 뛰어남

두 도구를 함께 사용하는 것도 가능!

=>  PIG로 처리한 중간 결과를 Hive로 불러와서 SQL 쿼리로 분석 or Hive에서 처리된 결과를 PIG 스크립트로 조작

 

PIG is good at !

  • JOIN 기능에서 성능적으로 좋음 : PIG의 실행계획과 함께 작업을 실행하면 여러개의 테이블을 조인하여 셔플링 작업이 진행될 때 실행계획으로 인해 여러 대안 중 하나를 선택하여 최적화 시켜줌 

       =>  즉, 옵티마이저를 실행 하기에 가장 효율적은 방안을 제시

  • 구조화 되지 않은 데이터 처리에 적합
  • 성능 최적화 가능성 : PIG는 개발자가 직접 작업의 최적화 단계를 제어할 수 있는 기능을 제공하며, 이를 통해 HIVE보다 더 세밀하게 성능을 튜닝할 수 있는 여지를 줌. HIVE는 SQL 기반으로 자동 최적화를 수행하지만, 모든 경우에 최적화가 이상적으로 작동하지 않을 수 있음

HIVE is good at !

  • 구조화된 데이터 분석에 적합 :대규모 테이블을 SQL 방식으로 쉽게 처리 가능
  • 쿼리 실행 시 자동으로 최적화 단계를 거침
  • BI 통합 가능성 : SQL 기반으로 다양한 BI 툴과 쉽게 연동 가능
  • 데이터 관리 편의성 : 테이블 기반의 스키마 관리로, 데이터의 일관성 및 구조적 관리 가능

'Hadoop' 카테고리의 다른 글

[Hadoop] What is Hive?  (0) 2024.10.05
[Hadoop] What is Pig?  (4) 2024.09.30
YARN vs Multi Node Kubernetes  (3) 2024.06.27
[Hadoop] Hadoop vs Spark  (3) 2024.06.08
[Hadoop] What is HDFS ?  (0) 2024.06.01

+ Recent posts