Airflow 3.0 강의의 마지막 차시에서는 실무에서 가장 많이 쓰이는 AWS 기반의 ETL 파이프라인 구축과 운영의 핵심인 Backfill 전략, 그리고 이를 집대성한 Capstone 프로젝트를 다룬다.1. ETL 개념 정리 및 분리 전략1-1 . ETL 단계별 정의데이터 파이프라인의 핵심 구성 요소인 ETL은 다음과 같이 정의한다.Extract (추출): 원천 데이터를 소스 시스템에서 추출하는 단계다.Transform (변환): 추출된 데이터를 정제, 가공하여 분석 가능한 형태로 변환한다.Load (적재): 변환된 데이터를 DW(Data Warehouse)나 Data Lake에 적재한다.통합 과정: 위 세 단계가 유기적으로 연결되어 데이터 프로덕트의 기반을 형성한다.1-2. ETL 단계 분리의 중요..
전통적인 Airflow 운영 방식에서는 특정 조건이 충족될 때까지 기다리는 'Sensor'를 주로 사용했다.하지만 리소스 효율성 문제로 인해 Airflow 2.4부터는 Dataset 기반의 이벤트 트리거방식이 도입되었다.이번 포스팅에서는 Sensor의 한계와 이를 극복하는 Dataset의 개념, 그리고 운영 관점의 에러 핸들링 전략을 정리한다. 1. Sensor의 한계와 Dataset의 등장 배경Sensor 와 Dataset 한 문장 차이점- Sensor: "나왔니? 아직? 그럼 1분 뒤에 또 물어볼게" (수동적/리소스 낭비) - Dataset: (데이터가 업데이트되는 순간) "나왔다! 다음 작업 시작해!" (이벤트 기반/효율적)1-1. Sensor의 전통적 역할Sensor는 외부 시스템의 작업 완료를 ..
Airflow를 활용한 데이터 파이프라인이 복잡해짐에 따라 이를 논리적으로 구조화하고, 데이터 규모에 맞게 동적으로 태스크를 확장하는 기술은 실무에서 매우 중요하다. 이번 포스팅에서는 TaskGroup을 통한 구조화 전략과 Dynamic Task Mapping의 개념을 정리한다.1. DAG 구조화의 필요성과 TaskGroup 전략1-1. 왜 DAG를 구조화해야 하는가?DAG의 규모가 커질수록 관리상의 여러 문제점이 발생한다.가독성 문제: 복잡도가 증가함에 따라 전체 워크플로우를 한눈에 파악하기 어려워진다.유지보수 어려움: 오류 발생 시 원인 파악과 수정이 힘들어지며, 운영 비용이 상승한다.구조적 해결책: TaskGroup을 활용하면 논리적 단위로 Task를 그룹화하여 이러한 문제들을 해결할 수 있다.1-..
이번에는 Airflow의 데이터 전달 메커니즘과 환경 설정, AWS 연계 방법에 대해 학습한다. 0. 목차1. XCom: Task 간 데이터 전달2. Anti-pattern: XCom 사용 시 주의점3. 실습: XCom, Variable 활용4. AWS 연결: S3/Redshift 연동 1. Xcom: Task간 데이터 전달● Xcom(eXchage Communication)이름 그대로 태스크 간에 데이터를 교환하는 메커니즘1-1. XCom 사용 기준 & Anti-pattern기본 개념XCom(eXchange Communication)은 Airflow에서 Task 간 데이터를 전달하는 기본 메커니즘이다.주로 작은 크기의 데이터(문자열, 숫자, JSON 등)를 전달하는 데 최적화되어 있으며, Airflo..
0. 강의 목차1. Schedule / Catchup / Retry: 실행 주기 및 재시도 메커니즘2. Backfill 개념 & 필요성: 과거 데이터 재처리의 이해3. Catchup vs Backfill: 실무 운영 판단 기준4. Catchup 활성화 실습: 과거 미실행 구간 자동 처리5. CLI 기반 Backfill 실행: 명령어 기반 수동 재처리6. Backfill 시 중복 데이터 문제: 멱등성(Idempotency) 설계의 중요성1. Schedule / Catchup / Retry1-1. cron 표현식 기본 개념개요: Airflow에서 DAG 실행 주기를 정의하는 표준 방식으로, 분, 시, 일, 월, 요일 단위를 사용한다.기본 구조: 분(0-59) 시간(0-23) 일(1-31) 월(1-12) 요일..
0. 강의 목차---이론 부분---1. DAG 파일 구조 & 기본 규칙: Airflow 프로젝트 구조와 DAG 파일의 기본 요소2. TaskFlow API 개념: Python 함수 기반 DAG 작성 방법과 장점3. Task / DAG Run 관계: 실행 단위와 개념 이해---실습부분---4. 첫 TaskFlow DAG 작성: 실습을 통한 TaskFlow API 활용 방법5. DAG 실행 & Graph View 해석: 실행 결과 확인 및 View 해석6. 실패 DAG & 로그 분석: Task 로그 확인 포인트 ● Airflow DAG 하나정도는 스스로 만들고 실패시 트래킹 가능하도록 하는것이 오늘의 목표!1. DAG 파일 구조 & 기본 규칙1-1. Airflow 프로젝트 구조와 위치프로젝트 구조:dags/..
0. 강의 목차1. Airflow 3.0 Architecture 핵심: 역할 분리 철학, 전체 학습 로드맵2. DAG Parsing, Execution: "언제 읽히고, 언제 실행 되는가?"3. 왜 Docker로 Airflow를 실행하는가?: 실무 관점에서 Docker를 써야 하는 이유4. Docker & Docker Compose 설치: 개발 환경 구성5. Airflow 3.0 Docker Compose 실행: Airflow Docker 컨테이너들 띄우기6. Web UI 접속 & Scheduler 로그 확인: Web UI 구조, Scheduler 로그로 실행 흐름추적 Airflow 3.0 Architecture 핵심1-1. Control Plane & Execution Plane (역할 분리)Airfl..
이번 주제에서는 단순히 Airflow를 사용하는것이 목적이 아니라,왜 Airflow가 실무에서 표준이 되었는지, 실무에서 어떤 문제를 해결하기 위해 등장했는지 등등기술의 도입 이유와 작동 원리에 대해 공부해보는것이 목적이다.1. 학습 목표 설정이번 주제에서의 목표Airflow 3.0을 활용한 데이터 파이프라인 구축 및 운영 능력 습득AWS 클라우드 환경에서의 실전 구현 경험ㄴ 실습구조는 AWS EC2 인스턴스 기반이고 Docker를 활용한 Airflw 3.0 설치 및 운영으로 이뤄진다.이번 주제의 학습 목차1. Airflow 3.0 과정 목표 및 로드맵2. 자동화의 필요성3. 기존 방식의 한계4. Airflow 소개5. 핵심 개념6. AWS 환경 구성2. 데이터 작업 자동화의 필요성 및 한계2-1. 데이..
- Total
- Today
- Yesterday
- Databricks
- AWS Glue Catalog
- catchup
- docker
- elasticip
- Backfill
- Consumer DAG
- Daynamic Task
- 데이터파이프라인
- spark
- Data Dngineering
- iceberg
- kafka
- lakehouse
- Spark structured streaming
- Data Engineerring
- Prodcuder DAG
- DAG
- DataSet
- RDD
- AWS
- de
- Glue ETL
- Glue
- Data Pipeline
- s3
- lake house
- airflow
- Data engineering
- Unity Catalog
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
