티스토리 뷰
DataEngineer(DE)/AWS를 이용한 데이터 엔지니어링
AWS를 이용한 데이터 엔지니어링(5) - Glue, Data Catalog, Glue ETL
코딩하는 제리코 2026. 3. 28. 16:476-1. AWS Glue 소개

Glue
데이터를 수집 → 변환 → 저장하는 ETL을 서버 없이 실행하는 서비스
- 서버리스 데이터 통합 서비스
- 완전 관리형 ETL 서비스
- 데이터 카탈로그, 크롤러, 트리거 등 여러 기능 제공
- Spark 기반 분산 처리 환경 제공(대용량 빅데이터 다루기 용이)
- 다른 AWS 서비스와의 통합
- 과금: https://aws.amazon.com/ko/glue/pricing/


위 Glue의 아키텍쳐를 묘사한 그림에 대해 간단히 부연 설명해보겠다.
좌측 상단부에 있는 Data Stores(RDS나 S3,,)에서 Crawler 를 통해 Data Catalog로 데이터를 가져오고
이를 Script를 통한 ETL을 거쳐서 Data Target에 저장하는 일련의 과정이다.
6-2. Data Catalog

Data Catalog
데이터가 어디 있고 어떤 구조인지 저장하는 메타데이터 저장소
- 메타데이터 스토어
- 테이블 정의, 작업 정의 등 정보 저장
- 크롤러를 이용한 데이터 자동 검색
- Database, Stream Schema 등 제공
- Apache Iceberg를 이용한 테이블 최적화
- 다른 서비스와의 통합
// Data Catalog 예시
Database: user_db
Table: user_events
Columns:
- user_id (string)
- event_type (string)
- created_at (timestamp)

Crawler

데이터를 읽어서 자동으로 테이블 구조를 만들어주는 기능
- 데이터 소스를 스캔하여 자동으로 스키마 추론
- S3, RDS, RedShift 등 여러 데이터 소스 제공
- 테이블과 파티션 분류
- 온디멘드(한번만 실행) 또는 주기를 설정하여 실행

6-3. Glue ETL
Glue ETL
데이터를 변환하는 Spark 기반 ETL 실행 환경
- 완전 관리형 서비스
- 자동 코드 생성
- 데이터 카탈로그 통합
- Apache Spark 기반 엔진
- Scale-Out 아키텍쳐
- 스트리밍 ETL 지원
ETL
- E(Extract)
- 다양한 데이터 소스 지원
- S3, RDS, DynamoDB 등
- T(Transform)
- 데이터 정제, 조인 등 여러 변환 작업 지원
- Python, Scala 언어를 이용한 커스텀 스크립트 지원
- L(Load)
- 데이터 웨어하우스, 데이터 레이크 등 지원

Glue Studio
- 시각적 인터페이스 제공
- Drag & Drop 방식 UI
- 다양한 데이터 소스 연결
- 내장된 변환 기능
- 실행 및 모니터링
- 데이터 품질 제공
The DynamicFrames

- Spark 기반의 자료구조
- 다른 AWS 서비스와의 통합
- ETL에 더 잘 맞는 구조

- DataFrames
- 구조화된 테이블과 유사
- 사전에 정의된 스키마 필요
- 각 행은 동일한 구조

- DynamicFrames
- Semi-Structured 데이터 처리
- JSON, Avro 등 (반정형)
- Spark DataFrames와 상호작용됨
- DataFrames보다 약 2배 성능이 좋음
6-4. 전체적인 흐름 정리
1. S3에 데이터 쌓임 (로그)
2. Crawler → 스키마 생성
3. Data Catalog 저장
4. Glue ETL 실행
5. 정제 데이터 S3 저장
6. Athena / BI Tool 조회
'DataEngineer(DE) > AWS를 이용한 데이터 엔지니어링' 카테고리의 다른 글
| AWS를 이용한 데이터 엔지니어링(7) - Lambda (0) | 2026.03.31 |
|---|---|
| AWS를 이용한 데이터 엔지니어링(6) - Athena & Athena 최적화 전략 (0) | 2026.03.30 |
| AWS를 이용한 데이터 엔지니어링(4) - 스토리지 & 데이터 레이크 & 레이크 하우스 (0) | 2026.03.27 |
| AWS를 이용한 데이터 엔지니어링(3) - EC2 & EBS & ElasticIP & Security Group (0) | 2026.03.26 |
| AWS를 이용한 데이터 엔지니어링(2) - AWS 개념 및 기초 설정(MFA & IAM) (0) | 2026.03.26 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Glue ETL
- Data Engineerring
- AWS
- de
- 데이터파이프라인
- Consumer DAG
- catchup
- Data Pipeline
- Data engineering
- s3
- elasticip
- kafka
- airflow
- Prodcuder DAG
- Backfill
- DataSet
- RDD
- docker
- Spark structured streaming
- lakehouse
- iceberg
- lake house
- Daynamic Task
- Data Dngineering
- Unity Catalog
- Databricks
- AWS Glue Catalog
- DAG
- Glue
- spark
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
글 보관함
