1. DataFrameDistributed collection of data organized into named columns데이터에 인터페이스가 생겼다는 의미- RDD: ['Kim', 28], ['Lee', 32] 이걸 Spark는 이름인지 나이인지 모른다. (TS 기준으로 any[])- DataFrame: name: 'Kim', age: 28 처럼 컬럼 이름과 타입이 정해짐 (TS 기준으로 Uset[]) Spark 데이터 처리 속도 증가를 위해 등장 (텅스텐 프로젝트)schema 존재쿼리 최적화 (catalyst optimizer)코드를 비효율적으로 짜도(예: 전체를 다 가져와서 필터링), Spark 엔진이 "아, 이 코드는 먼저 필터링하고 필요한 컬럼만 가져오는 게 빠르겠네?"라고 실행 계획을 스..
전통적인 Airflow 운영 방식에서는 특정 조건이 충족될 때까지 기다리는 'Sensor'를 주로 사용했다.하지만 리소스 효율성 문제로 인해 Airflow 2.4부터는 Dataset 기반의 이벤트 트리거방식이 도입되었다.이번 포스팅에서는 Sensor의 한계와 이를 극복하는 Dataset의 개념, 그리고 운영 관점의 에러 핸들링 전략을 정리한다. 1. Sensor의 한계와 Dataset의 등장 배경Sensor 와 Dataset 한 문장 차이점- Sensor: "나왔니? 아직? 그럼 1분 뒤에 또 물어볼게" (수동적/리소스 낭비) - Dataset: (데이터가 업데이트되는 순간) "나왔다! 다음 작업 시작해!" (이벤트 기반/효율적)1-1. Sensor의 전통적 역할Sensor는 외부 시스템의 작업 완료를 ..
- Total
- Today
- Yesterday
- lakehouse
- s3
- Unity Catalog
- catchup
- docker
- Data Engineerring
- AWS Glue Catalog
- Consumer DAG
- Databricks
- DAG
- Glue ETL
- Spark structured streaming
- Glue
- RDD
- lake house
- Data Pipeline
- Data Dngineering
- de
- kafka
- Data engineering
- 데이터파이프라인
- iceberg
- Prodcuder DAG
- DataSet
- airflow
- Backfill
- elasticip
- Daynamic Task
- spark
- AWS
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
