본문 바로가기

Stack/AWS

[AWS DEA] AWS DEA 시험 핵심 도식

반응형

 

AWS DEA 시험 핵심 도식

AWS DEA(Data Engineer Associate, DEA-C01) 시험을 준비하면서 가장 힘들었던 건 서비스 이름이 너무 많다는 것이었습니다. Kinesis Data Streams, Kinesis Firehose, Glue, EMR, Athena, Redshift, Lake Formation, Step Functions, MWAA... 처음엔 이게 다 뭐가 다른지 전혀 감이 안 잡혔습니다. 그래서 데이터 엔지니어링 개념과 1:1로 매핑해서 정리했습니다. AWS를 몰라도 ETL 파이프라인, 데이터 레이크, 오케스트레이션, DW 같은 개념을 알면 충분히 이해할 수 있습니다.

시험 도메인 비중 (DEA-C01)

데이터 수집 및 변환 34%(Kinesis, Glue, DMS) / 데이터 저장 및 관리 26%(S3, Redshift, DynamoDB) / 데이터 운영 및 지원 22%(CloudWatch, Step Functions) / 데이터 보안 및 거버넌스 18%(IAM, KMS, Lake Formation) 순으로 출제됩니다.

자주 헷갈리는 서비스 구분

Kinesis Data Streams vs Firehose — Streams는 소비자가 직접 처리, Firehose는 S3/Redshift로 자동 전달. AWS Glue vs EMR — Glue는 서버리스 ETL(빠른 시작), EMR은 클러스터 직접 관리(대규모 처리). Athena vs Redshift — Athena는 S3 직접 쿼리(임시 분석, 스캔량 과금), Redshift는 DW(정기 BI). Step Functions vs MWAA — Step Functions는 AWS 서비스 연결용 State Machine, MWAA는 기존 Airflow DAG 코드 재사용. Kafka 기존 코드 그대로 이전하면 Amazon MSK, AWS 네이티브 새로 구축하면 Kinesis.

시험 키워드 → 서비스 빠른 매핑

실시간 수집·샤드·재처리 → Kinesis Data Streams. 자동 전달·버퍼링·S3 배치 → Kinesis Firehose. 서버리스 ETL·스키마 감지·크롤러 → AWS Glue. Hadoop·Spark 대규모·Spot 절감 → Amazon EMR. S3 직접 쿼리·스캔량 과금·Parquet → Amazon Athena. DW·OLAP·MPP·페타바이트 → Amazon Redshift. Data Lake 거버넌스·열 단위 권한 → Lake Formation. API 감사·누가 무엇을 했는가 → CloudTrail. 운영 모니터링·지표·알람 → CloudWatch. PII 탐지·민감 데이터·S3 분류 → Amazon Macie. Airflow 그대로·Python DAG → MWAA. 워크플로우·State Machine·에러 재시도 → Step Functions.

아래에 파이프라인 전체 흐름, 서비스별 카드, 헷갈리는 비교표, 키워드 매핑, 시험 출제 포인트를 도식으로 정리했습니다.

 

AWS Data Engineer Associate
시험 핵심 도식

AWS 경험 없어도 OK — 데이터 엔지니어링 개념과 1:1 매핑으로 빠르게 이해하기

🔄 파이프라인 전체 흐름
📦 서비스 카드
⚖️ 헷갈리는 비교
🔑 키워드 → 서비스
🎯 시험 출제 포인트
 
수집(Ingestion)
 
저장(Storage)
 
처리(Processing)
 
오케스트레이션
 
분석/서빙
 
보안/거버넌스
📥
INGESTION
데이터 수집
🗄️
STORAGE
저장/레이크
⚙️
PROCESS
ETL/변환
🎼
ORCHESTRATE
워크플로우
📊
ANALYTICS
분석/시각화
🔐
SECURITY
보안/거버넌스
 
시나리오 A — 배치(Batch) 파이프라인 가장 많이 출제
소스
RDS / 온프렘 DB
AWS DMS
DB 마이그레이션·복제
S3
원본 저장 (Data Lake)
AWS Glue
ETL 변환 (Spark 기반)
S3 / Redshift
처리된 데이터
Athena / QuickSight
쿼리·시각화
오케스트
EventBridge (스케줄)
Step Functions
전체 파이프라인 제어
 
시나리오 B — 스트리밍(Real-time) 파이프라인
소스
IoT / 앱 이벤트 / 클릭스트림
Kinesis Data Streams
실시간 스트림 수집
Kinesis Data Firehose
S3·Redshift로 자동 전달
S3 / Redshift
실시간처리
Kinesis Data Streams
Managed Flink (KDA)
실시간 SQL 분석
OpenSearch / DynamoDB
실시간 대시보드·조회
대용량 MQ
Amazon MSK (Kafka)
Lambda / Glue Streaming
S3 / Redshift
 
시나리오 C — Data Lakehouse 아키텍처
수집
다양한 소스
S3 (Raw Zone)
원천 데이터 그대로
Glue ETL
S3 (Curated Zone)
Parquet/ORC 형식
거버넌스
AWS Lake Formation
권한·카탈로그·보안 통합 관리
Glue Data Catalog
메타데이터 중앙 저장소
분석
Athena (S3 직접 쿼리)
+
Redshift Spectrum
S3→Redshift 연합쿼리
+
EMR (대규모 Spark)
 
수집 (Ingestion)
🌊
Kinesis Data Streams
KDS · 실시간 스트리밍
실시간 데이터를 샤드(Shard) 단위로 수집. 직접 컨슈머를 붙여서 처리. 데이터를 1~365일 보관.
💡 일반 개념으로 이해Kafka의 Topic ≈ KDS의 Stream / Kafka의 Partition ≈ KDS의 Shard. 완전관리형 Kafka라고 생각하면 됨.
시험 단골샤드 단위 확장보존 기간 설정Enhanced Fan-Out
🔥
Kinesis Firehose
KDF · 자동 전달
스트림 데이터를 S3/Redshift/OpenSearch 등에 자동으로 배치 전달. 코드 불필요, 완전 관리형.
💡 차이점 KDS vs FirehoseKDS는 실시간 처리(소비자 직접 연결), Firehose는 목적지로 자동 전달(저장 중심). 보통 KDS → Firehose → S3 순으로 연결.
시험 단골버퍼링 설정Lambda 변환
🐘
Amazon MSK
Managed Streaming for Kafka
완전관리형 Apache Kafka. 기존 Kafka 워크로드를 AWS로 이전할 때 사용. KDS보다 더 많은 제어권 필요 시 선택.
💡 KDS vs MSK 선택 기준Kafka 코드 그대로 쓰고 싶다 → MSK / AWS 네이티브로 새로 만든다 → KDS
Kafka 호환온프렘 마이그레이션
🔄
AWS DMS
Database Migration Service
DB를 AWS로 마이그레이션. 이기종 DB 간 변환(Oracle→Aurora 등). CDC(변경 데이터 캡처)로 실시간 복제도 가능.
💡 CDC란?DB 테이블의 INSERT/UPDATE/DELETE 변경사항을 실시간 캡처해 전달. 온프렘 DB → S3/Redshift 실시간 동기화에 활용.
CDC 중요이기종 마이그레이션SCT 함께 사용
❄️
AWS Snow 계열
Snowcone / Snowball / Snowmobile
물리적 장치로 대용량 데이터를 오프라인으로 AWS에 전송. 네트워크가 느리거나 수십TB 이상일 때 사용.
💡 언제 Snow를 쓰나?"10TB 데이터, 100Mbps 인터넷으로 전송 시 며칠?" → 계산해보면 Snow가 빠름. 시험에 이런 판단 문제 나옴.
대용량 오프라인엣지 컴퓨팅
🔗
AWS DataSync
온라인 데이터 전송
온프렘 스토리지 ↔ AWS 스토리지 간 자동화된 데이터 이동·동기화. NFS, SMB, HDFS 지원.
💡 Snow vs DataSyncSnow: 오프라인(물리 장치) / DataSync: 온라인(네트워크). DataSync는 반복적 동기화에 적합.
반복 동기화HDFS 지원
 
저장 (Storage)
🪣
Amazon S3
Simple Storage Service · 오브젝트 스토리지
AWS 데이터 레이크의 핵심. 무제한 용량, 파일(객체) 단위 저장. 여러 스토리지 클래스로 비용 최적화.
💡 스토리지 클래스 선택자주 접근 → Standard / 가끔(30일↑) → Standard-IA / 아카이브(분~시간 복구) → Glacier Flexible / 아카이브(즉시 복구) → Glacier Instant / 예측 불가 → Intelligent-Tiering
Data Lake 핵심파티셔닝 전략수명주기 정책버저닝
🏪
Amazon Redshift
컬럼형 DW (Data Warehouse)
페타바이트급 클라우드 데이터 웨어하우스. 컬럼 기반 저장, MPP(병렬 처리). OLAP 분석에 최적화.
💡 핵심 개념Redshift Spectrum: S3 데이터를 Redshift에서 직접 쿼리 (Data Lake 연동) / Redshift Serverless: 클러스터 관리 불필요 / RA3 노드: 스토리지와 컴퓨트 분리
DW 핵심COPY 명령Distribution KeySort Key
Amazon DynamoDB
NoSQL · Key-Value / Document
완전관리형 NoSQL DB. 밀리초 레이턴시, 자동 스케일링. 대용량 고속 읽기/쓰기에 적합.
💡 DynamoDB Streams테이블 변경사항을 실시간 캡처 → Lambda 트리거로 연결. 실시간 이벤트 처리 패턴에 자주 등장.
Partition KeyDynamoDB StreamsGSI/LSI
🐬
Amazon RDS / Aurora
관계형 DB (OLTP)
MySQL/PostgreSQL/Oracle 등 관계형 DB 완전관리형 서비스. Aurora는 AWS 최적화 버전(RDS보다 3~5배 빠름).
💡 OLTP vs OLAPRDS/Aurora: 트랜잭션 처리(OLTP, 운영 DB) → Redshift: 분석 쿼리(OLAP, DW). DEA 시험에서 이 둘을 혼동하면 안 됨.
Read ReplicaMulti-AZAurora Serverless
🏞️
AWS Lake Formation
Data Lake 거버넌스
S3 기반 Data Lake의 보안·권한·카탈로그를 통합 관리. 열(Column) 단위 세밀한 접근 제어 가능.
💡 Lake Formation의 역할Glue Catalog + IAM + S3 버킷 정책을 하나로 통합. "누가 어떤 테이블의 어떤 컬럼을 볼 수 있나"를 한 곳에서 관리.
거버넌스 핵심Column-level 보안Row 필터
 
처리 / ETL (Processing)
🦎
AWS Glue
완전관리형 서버리스 ETL
서버리스 Spark 기반 ETL 서비스. 스크립트 자동 생성, 스케줄링 가능. Glue Catalog로 메타데이터 관리.
💡 Glue의 구성요소Crawler: S3 스캔 → 스키마 자동 감지 / Data Catalog: Hive Metastore 역할 / Glue Job: 실제 ETL 변환 / Glue Studio: 시각적 ETL 설계
ETL 핵심Glue CatalogGlue CrawlerDynamicFrame
🐘
Amazon EMR
Elastic MapReduce · 관리형 Hadoop/Spark
Hadoop, Spark, Hive, Presto 등 빅데이터 프레임워크 클러스터. 대규모 데이터 처리, 완전한 제어권.
💡 Glue vs EMRGlue: 서버리스, 간단한 ETL, 빠른 시작 / EMR: 클러스터 직접 관리, 대규모·복잡한 처리, 비용 유연성 높음.
Spot Instance 활용EMR ServerlessEMRFS (S3 연동)
λ
AWS Lambda
서버리스 함수 실행
이벤트 기반 서버리스 컴퓨팅. 코드만 업로드하면 자동 실행. 소량 데이터 변환, 트리거 처리에 적합.
💡 데이터 파이프라인에서의 역할S3 파일 업로드 시 자동 트리거, Kinesis 스트림 처리, 간단한 데이터 변환. 대용량 처리는 Glue/EMR 사용.
최대 15분 실행이벤트 트리거Firehose 변환
🦈
Managed Flink (KDA)
실시간 스트림 처리
Apache Flink 기반 실시간 스트림 분석. SQL로 스트리밍 데이터 처리. Kinesis Data Analytics로도 불림.
💡 스트림 처리 비교Lambda: 간단한 이벤트 처리 / Managed Flink: 복잡한 실시간 분석(윈도우 함수, 조인 등)
윈도우 함수SQL 기반Apache Flink
 
오케스트레이션 (Orchestration)
📋
AWS Step Functions
워크플로우 오케스트레이션
여러 AWS 서비스를 시각적 상태 머신(State Machine)으로 연결. 에러 처리, 재시도, 분기 로직 관리.
💡 일반 개념Airflow의 DAG처럼 파이프라인 단계를 순서대로 실행. 단, AWS 서비스 간 연결에 특화. 시각적 흐름도로 표현됨.
워크플로우 핵심State MachineExpress/Standard
🌪️
Amazon MWAA
Managed Workflows for Apache Airflow
완전관리형 Apache Airflow. 기존 Airflow DAG 코드를 그대로 사용 가능. 복잡한 데이터 파이프라인 스케줄링.
💡 Step Functions vs MWAAStep Functions: AWS 네이티브, 코드 없이 설정 / MWAA: Airflow 그대로, Python DAG 코드 재사용 가능
Airflow 호환Python DAG
Amazon EventBridge
이벤트 버스 / 스케줄러
AWS 서비스 이벤트를 감지해 규칙 기반으로 대상(Lambda, Step Functions 등) 트리거. Cron 스케줄링도 가능.
💡 역할파이프라인의 시작점 역할. "매일 오전 2시에 Glue Job 실행" = EventBridge 스케줄 → Step Functions 시작.
Cron/Rate 표현식이벤트 필터링
 
분석 / 서빙 (Analytics & Serving)
🔍
Amazon Athena
서버리스 S3 쿼리
S3에 저장된 데이터를 SQL로 직접 쿼리. 인프라 불필요. 스캔한 데이터양만큼만 비용 발생.
💡 비용 최적화 핵심Parquet/ORC 형식 + 파티셔닝 → 스캔량 줄임 → 비용 절감. 시험에 자주 나오는 패턴.
비용 최적화 단골Parquet/ORCFederated Query
📊
Amazon QuickSight
BI 시각화 도구
완전관리형 클라우드 BI 서비스. Redshift/Athena/S3 등 다양한 소스 연결. SPICE 인메모리 캐싱으로 빠른 조회.
💡 SPICE란?Super-fast Parallel In-memory Calculation Engine. 데이터를 QuickSight 내부에 캐싱해 빠른 대시보드 제공.
SPICEML InsightsEmbedded Analytics
🔎
Amazon OpenSearch
검색 + 실시간 로그 분석
Elasticsearch 기반. 로그 분석, 전문(full-text) 검색, 실시간 대시보드(Kibana/OpenSearch Dashboards).
💡 언제 OpenSearch?로그 분석, 실시간 검색이 핵심인 경우. Redshift는 구조화된 분석, OpenSearch는 비정형 로그/검색.
로그 분석Kibana 대시보드
 
보안 / 거버넌스 (Security & Governance)
👤
AWS IAM
Identity & Access Management
AWS 리소스 접근 제어의 기본. 사용자/역할/정책으로 "누가 무엇을 할 수 있는가" 정의.
💡 Role vs PolicyPolicy: 권한 명세서 (JSON) / Role: 정책을 붙인 신분증. 서비스에는 Role 부여, 사람에게는 User+Policy 또는 Role.
모든 섹션 기본최소 권한 원칙SCP (조직 정책)
🔑
AWS KMS
Key Management Service
암호화 키 생성·관리·회전. S3, Redshift, RDS 등 대부분의 서비스와 통합. 감사 추적 가능.
💡 암호화 옵션SSE-S3: AWS가 키 관리 / SSE-KMS: KMS로 키 관리(감사 가능) / SSE-C: 고객이 키 제공. 규정 준수 → KMS.
키 회전CMKEnvelope 암호화
📋
AWS CloudTrail
API 감사 로그
AWS 계정의 모든 API 호출을 기록. "누가 언제 무엇을 했는가" 추적. 규정 준수·감사·보안 조사.
💡 CloudTrail vs CloudWatchCloudTrail: 누가 API 호출했는지 (감사) / CloudWatch: 서비스 성능·지표 모니터링 (운영)
API 감사규정 준수
👁️
Amazon Macie
S3 민감 데이터 탐지
ML로 S3 데이터에서 PII(개인정보), 신용카드 번호 등 민감 데이터 자동 탐지. GDPR/CCPA 규정 준수 지원.
💡 언제 Macie?"S3에 개인정보가 있는지 확인해야 한다" → Macie. 데이터 분류 + 민감 데이터 발견 자동화.
PII 탐지데이터 분류
 
헷갈리는 서비스 비교 시험 핵심
서비스 한 줄 정의 이럴 때 선택 이건 아님
Kinesis Data
Streams
실시간 스트림 수집·보관
소비자가 직접 처리
✓ 커스텀 처리 로직
✓ 여러 컨슈머
✓ 재처리 필요
✗ 목적지로 자동 전달
✗ 관리 최소화
Kinesis
Firehose
스트림 → 목적지 자동 전달
코드 없이 S3/Redshift로
✓ 단순 저장 목적
✓ 코드 최소화
✓ 자동 배치 전달
✗ 실시간 커스텀 처리
✗ 재처리·재생
Amazon MSK 관리형 Kafka
기존 Kafka 이전용
✓ 기존 Kafka 코드 재사용
✓ Kafka 에코시스템 필요
✗ AWS 네이티브 신규 구축
→ KDS 선택
AWS Glue 서버리스 ETL (Spark)
+ 메타데이터 카탈로그
✓ 서버리스 ETL
✓ 메타데이터 관리
✓ 빠른 시작
✗ 대규모 클러스터 튜닝
✗ 복잡한 커스텀 환경
Amazon EMR 관리형 Hadoop/Spark 클러스터
완전한 제어권
✓ 대규모 배치 처리
✓ Spot으로 비용 절감
✓ 커스텀 라이브러리
✗ 간단한 ETL
→ Glue 선택
Amazon Athena S3 → SQL 서버리스 쿼리
스캔량 기반 과금
✓ 임시 분석
✓ S3 데이터 직접 쿼리
✓ 비용 최소화
✗ 복잡한 DW 쿼리
✗ 지속적 대시보드 → Redshift
Redshift 컬럼형 데이터 웨어하우스
OLAP 분석
✓ 복잡한 집계 분석
✓ BI 도구 연결
✓ 정기 대시보드
✗ 트랜잭션 처리 → RDS
✗ 단순 임시 쿼리 → Athena
DynamoDB NoSQL Key-Value DB
밀리초 레이턴시
✓ 고속 단건 조회
✓ 자동 스케일링
✓ 세션·장바구니
✗ 복잡한 JOIN 쿼리
✗ 분석용 집계
Step Functions AWS 서비스 워크플로우
State Machine
✓ AWS 서비스 연결
✓ 에러 처리·재시도
✓ 시각적 흐름
✗ Python 코드 DAG
→ MWAA(Airflow)
MWAA 관리형 Airflow
Python DAG
✓ 기존 Airflow 코드 재사용
✓ 복잡한 의존성 관리
✗ AWS 전용 파이프라인
→ Step Functions
Lake Formation Data Lake 거버넌스 통합
권한+카탈로그+보안
✓ 열/행 수준 접근 제어
✓ 다중 팀 Data Lake
✗ 단순 S3 버킷 접근
→ IAM+S3 정책
 
데이터 형식 비교 (S3/Athena 쿼리 성능)
형식 구조 압축 쿼리 성능 사용 사례
Parquet 컬럼 기반 높음 (Snappy) ⭐ 최고 (Athena 권장) 분석 쿼리, Data Lake 표준
ORC 컬럼 기반 높음 ⭐ 최고 (Hive 최적) Hive/EMR 환경
CSV/JSON 행 기반 낮음 느림 (전체 스캔) 원천 데이터, 소량 데이터
Avro 행 기반 중간 중간 스키마 진화, 이벤트 직렬화
 
문제 키워드 → AWS 서비스 매핑 빠른 참조

시험에서 이 키워드가 보이면 → 해당 서비스를 떠올리세요

Kinesis Streams실시간 수집, 샤드, 재처리, 여러 컨슈머, 밀리초
Kinesis Firehose자동 전달, 서버리스, S3로 배치, 버퍼링
MSK (Kafka)Kafka, 기존 이전, 오픈소스 호환, 토픽/파티션
AWS Glue서버리스 ETL, 스키마 감지, 크롤러, 카탈로그, DynamicFrame
Glue Catalog중앙 메타데이터, Hive Metastore, 테이블 정의
AWS EMRHadoop, Spark, 대규모, Spot 절감, 커스텀 클러스터
Amazon S3Data Lake, 오브젝트 스토리지, 수명주기, 파티셔닝
Amazon RedshiftDW, OLAP, 컬럼형, 페타바이트, MPP, Spectrum
DynamoDBNoSQL, 밀리초, 자동 스케일, 세션, Streams, TTL
RDS / Aurora관계형, OLTP, MySQL/PostgreSQL, 트랜잭션
Amazon AthenaS3 직접 쿼리, 서버리스, 스캔량 과금, Parquet
QuickSightBI, 대시보드, 시각화, SPICE, 임베디드
OpenSearch로그 분석, 전문 검색, Elasticsearch, Kibana
Step Functions워크플로우, 상태머신, 에러 재시도, 파이프라인 조율
MWAAAirflow, Python DAG, 복잡한 의존성, 기존 Airflow
EventBridge스케줄, Cron, 이벤트 기반 트리거, 규칙
AWS DMSDB 마이그레이션, CDC, 이기종 변환, 실시간 복제
Lake FormationData Lake 거버넌스, 열 보안, 행 필터, 권한 통합
AWS KMS암호화 키, 규정 준수, SSE-KMS, 키 회전
CloudTrailAPI 감사, 누가 무엇을, 규정 준수, 보안 조사
CloudWatch모니터링, 지표, 알람, 로그, 대시보드, 운영
Amazon MaciePII 탐지, 민감 데이터, GDPR, S3 분류
Snow 계열물리 장치, 대용량 오프라인 이전, 네트워크 느림
DataSync온프렘↔AWS 동기화, NFS/SMB/HDFS, 반복 전송
Lambda이벤트 트리거, 서버리스 함수, 15분 이하, 소량 변환
Managed Flink실시간 스트림 SQL, 윈도우 함수, Apache Flink, KDA
 
시험 출제 핵심 포인트

⚡ 성능·비용 최적화

  • Athena 비용 절감 = Parquet/ORC 변환 + S3 파티셔닝
  • Redshift 성능 = Distribution Key / Sort Key 선택
  • EMR 비용 절감 = Spot Instance 활용
  • S3 비용 = 수명주기 정책으로 Glacier 이전
  • Kinesis Streams 처리량 = 샤드 수 조절

🔐 보안·거버넌스

  • S3 암호화 권장 = SSE-KMS (감사 추적 가능)
  • 규정 준수 감사 = CloudTrail (API 기록)
  • 운영 모니터링 = CloudWatch (지표·알람)
  • Data Lake 세밀 권한 = Lake Formation
  • S3 개인정보 자동 탐지 = Amazon Macie

🔄 데이터 이동·마이그레이션

  • 온프렘 DB → AWS = AWS DMS (CDC 지원)
  • 대용량 오프라인 이전 = Snow 계열
  • 반복 온라인 동기화 = DataSync
  • S3 리전 간 복제 = S3 CRR (Cross-Region Replication)
  • 이기종 DB 변환 = DMS + SCT(스키마 변환 도구)

📐 아키텍처 설계 원칙

  • Data Lake 표준 = S3 + Glue Catalog + Lake Formation
  • 실시간 처리 = KDS → Lambda/Flink → DynamoDB/OpenSearch
  • 배치 ETL = EventBridge → Step Functions → Glue Job
  • 서버리스 분석 = S3 + Glue + Athena + QuickSight
  • DW + Lake 통합 = Redshift Spectrum으로 S3 직접 쿼리

📊 Redshift 핵심

  • COPY 명령: S3 → Redshift 대량 로드 (권장)
  • Distribution Key: JOIN 많은 컬럼 선택
  • Sort Key: WHERE/GROUP BY 많은 컬럼 선택
  • Redshift Spectrum: S3 데이터 외부 테이블로 쿼리
  • WLM: 쿼리 우선순위·리소스 할당 관리

🌊 Kinesis 핵심

  • 샤드 1개 = 1MB/s 쓰기, 2MB/s 읽기
  • 기본 보관 = 24시간 (최대 365일)
  • Enhanced Fan-Out = 여러 컨슈머 2MB/s씩 병렬
  • Firehose 버퍼: 크기(1-128MB) 또는 시간(60-900초)
  • KDS → Firehose → S3 는 가장 흔한 패턴

🦎 Glue 핵심

  • Crawler: S3/DB 스캔 → 스키마 자동 감지 → Catalog 저장
  • DPU: Glue Job 처리 단위 (비용 기준)
  • Bookmark: 이미 처리한 데이터 건너뛰기 (중복 방지)
  • Glue Studio: 노코드 시각적 ETL 설계
  • Glue DataBrew: 데이터 정제·프로파일링 (ML 지원)

🏗️ S3 Data Lake 설계

  • 파티션 예시: s3://bucket/year=2024/month=01/
  • Zone 구분: Raw → Cleansed → Curated
  • 형식 변환: JSON/CSV → Parquet (Glue ETL)
  • S3 Select: 파일 내 특정 데이터만 추출 (비용 절감)
  • Requester Pays: 데이터 요청자가 비용 부담
 
시험 도메인별 비중 (DEA-C01)
34%
데이터 수집 및 변환
Kinesis, Glue, DMS
26%
데이터 저장 및 관리
S3, Redshift, DynamoDB
22%
데이터 운영 및 지원
CloudWatch, Step Functions
18%
데이터 보안 및 거버넌스
IAM, KMS, Lake Formation

반응형