티스토리 뷰

6-1. AWS Glue 소개

Glue

데이터를 수집 → 변환 → 저장하는 ETL을 서버 없이 실행하는 서비스
  • 서버리스 데이터 통합 서비스
  • 완전 관리형 ETL 서비스
  • 데이터 카탈로그, 크롤러, 트리거 등 여러 기능 제공
  • Spark 기반 분산 처리 환경 제공(대용량 빅데이터 다루기 용이)
  • 다른 AWS 서비스와의 통합
  • 과금: https://aws.amazon.com/ko/glue/pricing/

Glue의 Free-Tier Pricing
Glue의 Architecture

위 Glue의 아키텍쳐를 묘사한 그림에 대해 간단히 부연 설명해보겠다.

좌측 상단부에 있는 Data Stores(RDS나 S3,,)에서 Crawler 를 통해 Data Catalog로 데이터를 가져오고 

이를 Script를 통한 ETL을 거쳐서 Data Target에 저장하는 일련의 과정이다.


6-2. Data Catalog

Data Catalog

 데이터가 어디 있고 어떤 구조인지 저장하는 메타데이터 저장소
  • 메타데이터 스토어
  • 테이블 정의, 작업 정의 등 정보 저장
  • 크롤러를 이용한 데이터 자동 검색
  • Database, Stream Schema 등 제공
  • Apache Iceberg를 이용한 테이블 최적화
  • 다른 서비스와의 통합
// Data Catalog 예시

Database: user_db
Table: user_events
Columns:
  - user_id (string)
  - event_type (string)
  - created_at (timestamp)

 

출처: metacode DE

Crawler

데이터를 읽어서 자동으로 테이블 구조를 만들어주는 기능
  • 데이터 소스를 스캔하여 자동으로 스키마 추론
  • S3, RDS, RedShift 등 여러 데이터 소스 제공
  • 테이블과 파티션 분류
  • 온디멘드(한번만 실행) 또는 주기를 설정하여 실행

출처: metacode-DE


6-3. Glue ETL

Glue ETL

데이터를 변환하는 Spark 기반 ETL 실행 환경
  • 완전 관리형 서비스
  • 자동 코드 생성
  • 데이터 카탈로그 통합
  • Apache Spark 기반 엔진
  • Scale-Out 아키텍쳐
  • 스트리밍 ETL 지원

ETL

  • E(Extract)
    • 다양한 데이터 소스 지원
    • S3, RDS, DynamoDB 등
  • T(Transform)
    • 데이터 정제, 조인 등 여러 변환 작업 지원
    • Python, Scala 언어를 이용한 커스텀 스크립트 지원
  • L(Load)
    • 데이터 웨어하우스, 데이터 레이크 등 지원

Glue Studio

  • 시각적 인터페이스 제공
    • Drag & Drop 방식 UI
  • 다양한 데이터 소스 연결
  • 내장된 변환 기능
  • 실행 및 모니터링
  • 데이터 품질 제공

 

 

 

The DynamicFrames

  • Spark 기반의 자료구조
  • 다른 AWS 서비스와의 통합
  • ETL에 더 잘 맞는 구조

 

  • DataFrames
    • 구조화된 테이블과 유사
    • 사전에 정의된 스키마 필요
    • 각 행은 동일한 구조

  • DynamicFrames
    • Semi-Structured 데이터 처리
    • JSON, Avro 등 (반정형)
    • Spark DataFrames와 상호작용됨
    • DataFrames보다 약 2배 성능이 좋음

6-4. 전체적인 흐름 정리

1. S3에 데이터 쌓임 (로그)
2. Crawler → 스키마 생성
3. Data Catalog 저장
4. Glue ETL 실행
5. 정제 데이터 S3 저장
6. Athena / BI Tool 조회
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/06   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함