Spark (0) - 학습 목표 설정

본문 바로가기 메뉴 바로가기

티스토리 뷰

DataEngineer(DE)/Spark- 데이터 처리, 최적화

Spark (0) - 학습 목표 설정

코딩하는 제리코 2026. 4. 13. 15:05

본격적인 Spark 학습에 앞서,

Spark가 데이터엔지니어링 생태계에서 어떤 역할을 하는지, 그리고 이번 과정을 통해 무엇을 목표로 하는지 정리해보겠다.

1. 데이터 엔지니어링 로드맵에서의 Spark

전체 데이터 엔지니어링 로드맵(Storage, Processing, Workflow, Monitoring 등) 중에서 Spark는 데이터 처리(Data Processing) 영역에 해당한다.

Spark의 정의와 필요성

정의: 대규모 분산 데이터 처리에 최적화된 도구다.
역할: 데이터 수집, 처리(정제), 저장, 모니터링, 분석, 서빙 등의 단계 중 특히 데이터 처리에 집중한다.
핵심: 대규모 데이터 처리의 중요성이 올라가고 있는 만큼, 데이터 프로세싱을 분산 처리하는 기술은 현대 데이터 엔지니어에게 필수적인 요소다.

DE 로드맵

2. 학습 목표 및 기대 효과 (About the Course)

2-1. 학습 목표 (Goal)

Spark의 기본 아키텍처와 구성 요소를 이해한다.
Spark의 주요 데이터 구조인 RDD와 Dataframe을 활용해 데이터를 처리한다.
Spark 작업을 최적화하는 방법을 익힌다.
실습과 프로젝트를 통해 실제 데이터를 직접 처리하고 분석하는 연습을 한다.

2-2. 이번 과정을 통해 얻을 수 있는 것 (What to take)

데이터 엔지니어링의 역할(Role)을 명확히 이해하고, 빅데이터 처리 내에서 Spark와 Hadoop의 역할을 파악한다.
Spark의 구조와 동작 방식을 이해한다.
Python을 이용해 Spark Job을 작성하고 실행할 수 있다.
프로젝트 환경에 맞춰 Spark를 최적화할 수 있다.
데이터 정제 파이프라인(Source → 정제 → Output)을 구축한다.
체크포인트를 통해 데이터 처리 부분의 이해도를 점검한다.
실습과 프로젝트를 통해 자신만의 작은 포트폴리오 결과물을 완성한다.
결과적으로 대규모 데이터 처리 능력을 갖추게 된다.

'DataEngineer(DE) > Spark- 데이터 처리, 최적화' 카테고리의 다른 글

Spark (4) - Spark의 데이터 종류 및 처리법 - DataFrame & Dataset 편 (2)	2026.04.16
Spark (4) - Spark의 데이터 종류 및 처리법 - RDD 편 (0)	2026.04.15
Spark (3) - 첫 번째 Spark 애플리케이션 : Word Count로 이해하는 분산 처리 (1)	2026.04.14
Spark (2) - Spark 구성 요소 이해하기 - Databricks & Unity Catalog & RDD (1)	2026.04.14
Spark (1) - 빅데이터와 Spark 의 이해 (1)	2026.04.13

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바