원래는 Databricks 에서 Community Edition으로 노트북 환경 실습이 가능했지만,Community Edition 에서 Free Edition으로 전환되어서 실습이 제한되었다.따라서 For Work(업무용) 환경으로 대체해서 (AWS 연동)DBU(Databricks Unit) + AWS 인스턴스 비용 형식으로 실습을 진행할거고사용량 기준으로 과금이 될 수 있다.PC방으로 비유하자면,컴퓨터 이용로(AWS) 와 유료 게임 접속료(DBU)를 동시에 내는것과 같다.실습 진행하면서 틈틈히 과금을 확인하면서 진행해야할것 같다.1. Databricks 란?Spark를 기업 환경에 맞게 만든 확장-운영 가능한 플랫폼 Databricks는 "Apache Spark 기반의 클라우드 데이터 플랫폼" 이다.대..
데이터 엔지니어링 환경에서 Spark를 본격적으로 다루기에 앞서,그 근간이 되는 '빅데이터'의 개념과 기존 방식의 한계를 극복한 'Spark'의 탄생 배경 및 아키텍처를 정리한다.1. 빅데이터(Big Data)의 이해데이터 양의 폭발적 증가: 매일 생성되는 데이터의 절대적인 규모가 과거와 비교할 수 없을 만큼 커졌다.기존 데이터 처리 방식의 한계: 단일 서버나 전통적인 데이터베이스로는 이 거대한 데이터를 감당할 수 없게 되었다.비정형 데이터의 등장: 텍스트, 이미지, 비디오 등 다양한 형태를 포함하는 비정형 데이터가 폭증하면서, 기존 관계형 데이터베이스(RDB)에서 처리하기 어려운 특성을 띠게 되었다.1-1. 데이터 저장소: Data Warehouse vs Data Lake대용량 데이터를 저장하는 방식은..
- Total
- Today
- Yesterday
- RDD
- AWS Glue Catalog
- Unity Catalog
- Data Engineerring
- DAG
- DataSet
- lakehouse
- de
- Databricks
- AWS
- Data Pipeline
- docker
- iceberg
- 데이터파이프라인
- kafka
- Daynamic Task
- Spark structured streaming
- Prodcuder DAG
- Backfill
- Glue
- Data Dngineering
- Glue ETL
- catchup
- airflow
- Data engineering
- spark
- Consumer DAG
- elasticip
- s3
- lake house
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
