AWS DEA 시험 핵심 도식
AWS DEA(Data Engineer Associate, DEA-C01) 시험을 준비하면서 가장 힘들었던 건 서비스 이름이 너무 많다는 것이었습니다. Kinesis Data Streams, Kinesis Firehose, Glue, EMR, Athena, Redshift, Lake Formation, Step Functions, MWAA... 처음엔 이게 다 뭐가 다른지 전혀 감이 안 잡혔습니다. 그래서 데이터 엔지니어링 개념과 1:1로 매핑해서 정리했습니다. AWS를 몰라도 ETL 파이프라인, 데이터 레이크, 오케스트레이션, DW 같은 개념을 알면 충분히 이해할 수 있습니다.
시험 도메인 비중 (DEA-C01)
데이터 수집 및 변환 34%(Kinesis, Glue, DMS) / 데이터 저장 및 관리 26%(S3, Redshift, DynamoDB) / 데이터 운영 및 지원 22%(CloudWatch, Step Functions) / 데이터 보안 및 거버넌스 18%(IAM, KMS, Lake Formation) 순으로 출제됩니다.
자주 헷갈리는 서비스 구분
Kinesis Data Streams vs Firehose — Streams는 소비자가 직접 처리, Firehose는 S3/Redshift로 자동 전달. AWS Glue vs EMR — Glue는 서버리스 ETL(빠른 시작), EMR은 클러스터 직접 관리(대규모 처리). Athena vs Redshift — Athena는 S3 직접 쿼리(임시 분석, 스캔량 과금), Redshift는 DW(정기 BI). Step Functions vs MWAA — Step Functions는 AWS 서비스 연결용 State Machine, MWAA는 기존 Airflow DAG 코드 재사용. Kafka 기존 코드 그대로 이전하면 Amazon MSK, AWS 네이티브 새로 구축하면 Kinesis.
시험 키워드 → 서비스 빠른 매핑
실시간 수집·샤드·재처리 → Kinesis Data Streams. 자동 전달·버퍼링·S3 배치 → Kinesis Firehose. 서버리스 ETL·스키마 감지·크롤러 → AWS Glue. Hadoop·Spark 대규모·Spot 절감 → Amazon EMR. S3 직접 쿼리·스캔량 과금·Parquet → Amazon Athena. DW·OLAP·MPP·페타바이트 → Amazon Redshift. Data Lake 거버넌스·열 단위 권한 → Lake Formation. API 감사·누가 무엇을 했는가 → CloudTrail. 운영 모니터링·지표·알람 → CloudWatch. PII 탐지·민감 데이터·S3 분류 → Amazon Macie. Airflow 그대로·Python DAG → MWAA. 워크플로우·State Machine·에러 재시도 → Step Functions.
아래에 파이프라인 전체 흐름, 서비스별 카드, 헷갈리는 비교표, 키워드 매핑, 시험 출제 포인트를 도식으로 정리했습니다.
AWS Data Engineer Associate
시험 핵심 도식
AWS 경험 없어도 OK — 데이터 엔지니어링 개념과 1:1 매핑으로 빠르게 이해하기
DB 마이그레이션·복제
원본 저장 (Data Lake)
ETL 변환 (Spark 기반)
처리된 데이터
쿼리·시각화
전체 파이프라인 제어
실시간 스트림 수집
S3·Redshift로 자동 전달
실시간 SQL 분석
실시간 대시보드·조회
원천 데이터 그대로
Parquet/ORC 형식
권한·카탈로그·보안 통합 관리
메타데이터 중앙 저장소
S3→Redshift 연합쿼리
| 서비스 | 한 줄 정의 | 이럴 때 선택 | 이건 아님 |
|---|---|---|---|
| Kinesis Data Streams |
실시간 스트림 수집·보관 소비자가 직접 처리 |
✓ 커스텀 처리 로직 ✓ 여러 컨슈머 ✓ 재처리 필요 |
✗ 목적지로 자동 전달 ✗ 관리 최소화 |
| Kinesis Firehose |
스트림 → 목적지 자동 전달 코드 없이 S3/Redshift로 |
✓ 단순 저장 목적 ✓ 코드 최소화 ✓ 자동 배치 전달 |
✗ 실시간 커스텀 처리 ✗ 재처리·재생 |
| Amazon MSK | 관리형 Kafka 기존 Kafka 이전용 |
✓ 기존 Kafka 코드 재사용 ✓ Kafka 에코시스템 필요 |
✗ AWS 네이티브 신규 구축 → KDS 선택 |
| AWS Glue | 서버리스 ETL (Spark) + 메타데이터 카탈로그 |
✓ 서버리스 ETL ✓ 메타데이터 관리 ✓ 빠른 시작 |
✗ 대규모 클러스터 튜닝 ✗ 복잡한 커스텀 환경 |
| Amazon EMR | 관리형 Hadoop/Spark 클러스터 완전한 제어권 |
✓ 대규모 배치 처리 ✓ Spot으로 비용 절감 ✓ 커스텀 라이브러리 |
✗ 간단한 ETL → Glue 선택 |
| Amazon Athena | S3 → SQL 서버리스 쿼리 스캔량 기반 과금 |
✓ 임시 분석 ✓ S3 데이터 직접 쿼리 ✓ 비용 최소화 |
✗ 복잡한 DW 쿼리 ✗ 지속적 대시보드 → Redshift |
| Redshift | 컬럼형 데이터 웨어하우스 OLAP 분석 |
✓ 복잡한 집계 분석 ✓ BI 도구 연결 ✓ 정기 대시보드 |
✗ 트랜잭션 처리 → RDS ✗ 단순 임시 쿼리 → Athena |
| DynamoDB | NoSQL Key-Value DB 밀리초 레이턴시 |
✓ 고속 단건 조회 ✓ 자동 스케일링 ✓ 세션·장바구니 |
✗ 복잡한 JOIN 쿼리 ✗ 분석용 집계 |
| Step Functions | AWS 서비스 워크플로우 State Machine |
✓ AWS 서비스 연결 ✓ 에러 처리·재시도 ✓ 시각적 흐름 |
✗ Python 코드 DAG → MWAA(Airflow) |
| MWAA | 관리형 Airflow Python DAG |
✓ 기존 Airflow 코드 재사용 ✓ 복잡한 의존성 관리 |
✗ AWS 전용 파이프라인 → Step Functions |
| Lake Formation | Data Lake 거버넌스 통합 권한+카탈로그+보안 |
✓ 열/행 수준 접근 제어 ✓ 다중 팀 Data Lake |
✗ 단순 S3 버킷 접근 → IAM+S3 정책 |
| 형식 | 구조 | 압축 | 쿼리 성능 | 사용 사례 |
|---|---|---|---|---|
| Parquet | 컬럼 기반 | 높음 (Snappy) | ⭐ 최고 (Athena 권장) | 분석 쿼리, Data Lake 표준 |
| ORC | 컬럼 기반 | 높음 | ⭐ 최고 (Hive 최적) | Hive/EMR 환경 |
| CSV/JSON | 행 기반 | 낮음 | 느림 (전체 스캔) | 원천 데이터, 소량 데이터 |
| Avro | 행 기반 | 중간 | 중간 | 스키마 진화, 이벤트 직렬화 |
시험에서 이 키워드가 보이면 → 해당 서비스를 떠올리세요
⚡ 성능·비용 최적화
- Athena 비용 절감 = Parquet/ORC 변환 + S3 파티셔닝
- Redshift 성능 = Distribution Key / Sort Key 선택
- EMR 비용 절감 = Spot Instance 활용
- S3 비용 = 수명주기 정책으로 Glacier 이전
- Kinesis Streams 처리량 = 샤드 수 조절
🔐 보안·거버넌스
- S3 암호화 권장 = SSE-KMS (감사 추적 가능)
- 규정 준수 감사 = CloudTrail (API 기록)
- 운영 모니터링 = CloudWatch (지표·알람)
- Data Lake 세밀 권한 = Lake Formation
- S3 개인정보 자동 탐지 = Amazon Macie
🔄 데이터 이동·마이그레이션
- 온프렘 DB → AWS = AWS DMS (CDC 지원)
- 대용량 오프라인 이전 = Snow 계열
- 반복 온라인 동기화 = DataSync
- S3 리전 간 복제 = S3 CRR (Cross-Region Replication)
- 이기종 DB 변환 = DMS + SCT(스키마 변환 도구)
📐 아키텍처 설계 원칙
- Data Lake 표준 = S3 + Glue Catalog + Lake Formation
- 실시간 처리 = KDS → Lambda/Flink → DynamoDB/OpenSearch
- 배치 ETL = EventBridge → Step Functions → Glue Job
- 서버리스 분석 = S3 + Glue + Athena + QuickSight
- DW + Lake 통합 = Redshift Spectrum으로 S3 직접 쿼리
📊 Redshift 핵심
- COPY 명령: S3 → Redshift 대량 로드 (권장)
- Distribution Key: JOIN 많은 컬럼 선택
- Sort Key: WHERE/GROUP BY 많은 컬럼 선택
- Redshift Spectrum: S3 데이터 외부 테이블로 쿼리
- WLM: 쿼리 우선순위·리소스 할당 관리
🌊 Kinesis 핵심
- 샤드 1개 = 1MB/s 쓰기, 2MB/s 읽기
- 기본 보관 = 24시간 (최대 365일)
- Enhanced Fan-Out = 여러 컨슈머 2MB/s씩 병렬
- Firehose 버퍼: 크기(1-128MB) 또는 시간(60-900초)
- KDS → Firehose → S3 는 가장 흔한 패턴
🦎 Glue 핵심
- Crawler: S3/DB 스캔 → 스키마 자동 감지 → Catalog 저장
- DPU: Glue Job 처리 단위 (비용 기준)
- Bookmark: 이미 처리한 데이터 건너뛰기 (중복 방지)
- Glue Studio: 노코드 시각적 ETL 설계
- Glue DataBrew: 데이터 정제·프로파일링 (ML 지원)
🏗️ S3 Data Lake 설계
- 파티션 예시: s3://bucket/year=2024/month=01/
- Zone 구분: Raw → Cleansed → Curated
- 형식 변환: JSON/CSV → Parquet (Glue ETL)
- S3 Select: 파일 내 특정 데이터만 추출 (비용 절감)
- Requester Pays: 데이터 요청자가 비용 부담
'Stack > AWS' 카테고리의 다른 글
| [AWS DEA] 문제로 공부하기 3 - Lambda · EFS (0) | 2026.03.09 |
|---|---|
| [AWS DEA] 문제로 공부하기 2 - SSE-KMS (0) | 2026.03.09 |
| [AWS DEA] 실무에서 경험했던 데이터 플랫폼 스택, AWS와 매핑하기 (0) | 2026.03.08 |
| [AWS DEA] 아키텍처 플레이북 (feat. NotebookLM) (0) | 2026.03.07 |
| [AWS DEA] 데이터 엔지니어링 핵심 파이프라인 및 AWS 서비스 용어 매핑 (0) | 2026.03.07 |