본문 바로가기

Stack/AWS

[AWS DEA] Data Engineering Fundamentals (with AWS Toolkit)

반응형

 

AWS Skill Builder · DEA-C01 기초

Data Engineering
Fundamentals

데이터 엔지니어의 정의, 수명 주기, 책임 영역, 방법론, AWS 도구 키트를 한 장으로 정리

Data Lifecycle ETL / ELT Data Pipeline AWS Toolkit DEA-C01 기초
01 · 핵심 정의
👷
Data Engineer
데이터 엔지니어
데이터를 획득(Acquire)하고, 저장(Store)하고, 데이터 과학자·분석가 등이 사용할 수 있도록 준비(Prepare)하는 사람
⚙️
Data Engineering
데이터 엔지니어링
원시 데이터를 수집하여 분석·ML에 사용할 고품질의 일관된 데이터를 생성하는 프로세스 및 시스템을 개발·구현·유지 관리하는 것
02 · 목표
🎯
신뢰할 수 있는 데이터셋 구축
원시 데이터를 가져와 여러 데이터셋 및 도메인에서의 작업과 통합을 간편하고 신뢰할 수 있게 만드는 것. 파이프라인을 지속적으로 검토하여 비용 · 확장성 · 민첩성 · 재사용을 최적화해야 한다.
03 · 데이터 엔지니어링 수명 주기
📌 5단계 수명 주기 (Data Engineer가 제어하는 단계)
01
🌱
생성
Generation
02
🗄️
저장
Storage
03
📥
수집
Ingestion
04
🔄
변형
Transformation
05
🚀
제공
Serving
🌐 전체 데이터 수명 주기
5단계 수명 주기 전체
+ 보안(Security)
+ 오케스트레이션(Orchestration)
+ 데이터 아키텍처
+ 소프트웨어 엔지니어링
+ 운영(Operations)
🔵 데이터 엔지니어링 수명 주기
전체 수명 주기의 하위 집합
데이터 엔지니어가 직접 제어하는 단계에 집중

생성 → 저장 → 수집
→ 변형 → 제공
04 · 데이터 엔지니어의 책임 영역
🔐
보안
Security
데이터 접근 제어·암호화
📋
데이터 관리
Data Management
품질·거버넌스·카탈로그
🎼
오케스트레이션
Orchestration
파이프라인 스케줄링·조율
🏛️
데이터 아키텍처
Data Architecture
레이크·웨어하우스 설계
💻
소프트웨어 엔지니어링
Software Engineering
코드·프레임워크 개발
⚙️
운영
Operations
모니터링·유지관리·최적화
05 · 주요 방법론 & 도구
🌊
스트리밍
Streaming
실시간 데이터 처리
Kinesis · Kafka
🔁
ETL / ELT
추출·변환·로드
Glue · dbt
배치 처리
🏢
데이터 웨어하우스
Data Warehouse
Redshift
정형 분석
🏞️
데이터 레이크
Data Lake
S3 + Glue
원시·비정형 저장
06 · AWS 데이터 엔지니어링 도구 키트
☁️ AWS Services Overview
🗄️Amazon S3
🔄AWS Glue
🏢Redshift
🌊Kinesis
Lambda
📊Athena
🎼MWAA
🏞️Lake Formation
🔍OpenSearch
🗃️DynamoDB
📨SQS / SNS
🔌AppFlow
EventBridge
📈QuickSight
🛡️Macie · IAM
07 · 데이터 엔지니어에게 필요한 기술
Apache Hadoop Apache Spark Apache Hive Teradata Python SQL Java / Scala 분산 컴퓨팅 네트워킹 스토리지 시스템 소프트웨어 엔지니어링
08 · 핵심 원칙
01
🛠️ 적합한 도구 선택 능력
도구를 사용하는 방법을 아는 것만큼 작업에 적합한 도구를 선택하는 능력이 중요하다. 요구 사항에 가장 적합한 서비스를 선택할 수 있는 지식을 갖춰야 한다.
02
💡 개념과 원리 이해
서비스 및 도구 이면의 개념과 원리를 이해하는 것이 효과적인 데이터 엔지니어링의 핵심이다. 단순 사용법보다 깊은 이해가 문제 해결력을 높인다.
03
🔄 지속적 최적화
파이프라인을 지속적으로 검토·개선하여 비용 · 확장성 · 민첩성 · 재사용이 최적화되도록 관리해야 한다.
04
🔗 데이터 파이프라인 구축
데이터 파이프라인 = 데이터를 소스에서 대상으로 이동하는 방법. 이동 중 변환 및 최적화하여 대상에서 사용 가능한 형태로 전달한다.
반응형