'DataSet' 태그의 글 목록

Spark (4) - Spark의 데이터 종류 및 처리법 - DataFrame & Dataset 편

1. DataFrameDistributed collection of data organized into named columns데이터에 인터페이스가 생겼다는 의미- RDD: ['Kim', 28], ['Lee', 32] 이걸 Spark는 이름인지 나이인지 모른다. (TS 기준으로 any[])- DataFrame: name: 'Kim', age: 28 처럼 컬럼 이름과 타입이 정해짐 (TS 기준으로 Uset[]) Spark 데이터 처리 속도 증가를 위해 등장 (텅스텐 프로젝트)schema 존재쿼리 최적화 (catalyst optimizer)코드를 비효율적으로 짜도(예: 전체를 다 가져와서 필터링), Spark 엔진이 "아, 이 코드는 먼저 필터링하고 필요한 컬럼만 가져오는 게 빠르겠네?"라고 실행 계획을 스..

DataEngineer(DE)/Spark- 데이터 처리, 최적화 2026. 4. 16. 00:20

Airflow 3.0과 DAG 개발 및 최적화 (7) - Dataset 기반 파이프라인

전통적인 Airflow 운영 방식에서는 특정 조건이 충족될 때까지 기다리는 'Sensor'를 주로 사용했다.하지만 리소스 효율성 문제로 인해 Airflow 2.4부터는 Dataset 기반의 이벤트 트리거방식이 도입되었다.이번 포스팅에서는 Sensor의 한계와 이를 극복하는 Dataset의 개념, 그리고 운영 관점의 에러 핸들링 전략을 정리한다. 1. Sensor의 한계와 Dataset의 등장 배경Sensor 와 Dataset 한 문장 차이점- Sensor: "나왔니? 아직? 그럼 1분 뒤에 또 물어볼게" (수동적/리소스 낭비) - Dataset: (데이터가 업데이트되는 순간) "나왔다! 다음 작업 시작해!" (이벤트 기반/효율적)1-1. Sensor의 전통적 역할Sensor는 외부 시스템의 작업 완료를 ..

DataEngineer(DE)/Airflow 3.0 & DAG 개발 및 최적화 2026. 4. 11. 16:29

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

육각형개발자

티스토리툴바