데이터 엔지니어 어소시에이트
시험 범위 완벽 정리
처음 보는 사람도 이해할 수 있게 — 실생활 비유로 전체 그림 잡기
데이터 수집 · 변환 · 파이프라인
Data Ingestion, Transformation & Orchestration
📦 물류 공장 전체 라인 — 원자재(원본 데이터)를 받아서, 가공하고, 완제품 창고로 보내는 전 과정입니다. 어떻게 받아오고(수집), 어떻게 가공하고(변환), 어떤 순서로 일을 시킬지(오케스트레이션)를 다룹니다. 시험 비중이 34%로 가장 높습니다.
실시간 컨베이어 벨트
실시간 스트리밍 데이터를 밀리초 단위로 수집. 소비자(Consumer)가 직접 가져가는 pull 방식. 샤드(Shard) 단위로 처리량 확장.
≈ Apache Kafka자동 배송 트럭
완전 서버리스 스트리밍 전송 서비스. 변환·압축·암호화 후 S3/Redshift/OpenSearch에 자동 적재. Streams와 달리 목적지까지 자동 전달.
대형 우체국
완전 관리형 Apache Kafka. 수백만 이벤트/초 처리. 오프셋 기반 메시지 보존. Kinesis와 달리 오픈소스 호환이 핵심.
≈ 온프렘 Kafka 그대로스마트홈 허브
수십억 IoT 디바이스 연결 관리. MQTT 프로토콜 지원. 규칙 엔진(Rule Engine)으로 Kinesis/Lambda/S3 자동 연동.
이사 전문 업체
이기종 DB 간 마이그레이션. CDC(Change Data Capture)로 실시간 복제 지원. 온프렘 Oracle → RDS/Aurora 이전에 필수.
온프렘 Oracle → RDS/AuroraSaaS 앱 자동 동기화 파이프
코드 없이 SaaS ↔ AWS 데이터 이동. 일정 기반/이벤트 기반 트리거 지원. 데이터 필터링·변환 기능 내장.
창고 간 자동 동기화 트럭
온프렘 ↔ S3/EFS/FSx 간 대용량 파일 마이그레이션 및 동기화. 전송 암호화·무결성 검증 포함. AppFlow와 달리 파일 시스템 중심.
온프렘 NFS/SMB → S3구식 우편 배달부
FTP/SFTP/FTPS/AS2 서버를 완전 관리형으로 제공. 백엔드 스토리지는 S3 또는 EFS. 기존 워크플로 변경 없이 클라우드 이전 가능.
대기표 번호 뽑는 기계
메시지 큐 서비스. 시스템 간 디커플링. Standard(순서 보장 안 됨) vs FIFO(순서 보장). Lambda 트리거로 자주 연동.
방송 스피커 시스템
Pub/Sub 알림 서비스. 토픽(Topic)에 발행하면 모든 구독자에 전달. 이메일/SMS/Lambda/SQS/HTTP 엔드포인트 지원.
자동 번역 · 분류 공장
완전 서버리스 ETL. PySpark 기반 Job 실행. Glue Studio(드래그앤드롭 GUI), Glue DataBrew(노코드 데이터 정제) 포함. S3/RDS/Redshift/DynamoDB 연동.
≈ Apache Spark ETL창고 탐색 자동 로봇
S3/RDS/DynamoDB 스캔 후 스키마 자동 추론 → Glue Data Catalog에 테이블 메타데이터 자동 등록. 파티션 자동 감지.
대규모 공장 단지
Hadoop/Spark/Hive/Flink 완전 관리형 클러스터. Spot Instance 조합으로 비용 절감 가능. Glue는 서버리스, EMR은 EC2 기반(더 많은 제어권).
≈ 온프렘 Spark 클러스터실시간 불량품 검사원
Kinesis Streams 또는 MSK 위에서 SQL 또는 Apache Flink로 실시간 스트림 분석. 집계·윈도우 함수·이상 탐지 지원.
≈ Apache Flink호출형 단기 알바생
이벤트 기반 서버리스 함수. 최대 15분 실행. S3/Kinesis/DynamoDB/SNS 트리거 연동. 간단한 데이터 변환·라우팅에 적합.
요리 레시피 관리자
Lambda·EMR·Glue·ECS 등을 상태 머신(State Machine)으로 연결. 재시도·타임아웃·병렬실행·에러처리 내장. 시각적 워크플로 편집기 제공.
공사 현장 일정 관리자
완전 관리형 Apache Airflow. DAG Python 코드는 S3에 저장. 스케줄 기반 + 의존성 기반 워크플로. Airflow 생태계(Operator, Hook) 그대로 활용.
≈ 온프렘 Airflow 그대로자동 반응 알람 시스템
이벤트 버스(Event Bus). AWS 서비스 이벤트, 커스텀 이벤트, cron 스케줄 트리거. 100+ 서비스 직접 연동. Step Functions·Lambda 자동 실행 트리거로 많이 사용.
대규모 야간 공장 라인
완전 관리형 배치 컴퓨팅. EC2/Spot/Fargate 위에서 컨테이너 작업 실행. 작업 큐·우선순위·의존성 관리. 수시간 이상 걸리는 대규모 처리에 사용.
데이터 저장소 관리
Data Store Management
🏙️ 데이터 도시의 건물들 — 어떤 종류의 정보를 어느 건물에 보관할지 결정하는 일입니다. 냉장고(빠른 접근), 창고(저렴한 보관), 도서관(검색 최적화), 금고(장기 보존)처럼 용도에 맞는 저장소를 선택해야 합니다.
용도별 등급이 있는 무한 창고
🥩 Standard = 냉장고 (자주 꺼냄, 빠르고 비쌈)
📦 Standard-IA = 일반 창고 (가끔 꺼냄, 조금 저렴)
🔁 Intelligent-Tiering = 자동 분류 로봇 (접근 패턴 분석해서 자동으로 등급 조정)
❄️ Glacier Instant Retrieval = 지하 창고 (분 단위 복원, 저렴)
🧊 Glacier Flexible Retrieval = 외딴 창고 (시간 단위 복원)
🏔️ Glacier Deep Archive = 북극 창고 (12시간 복원, 가장 저렴)
데이터 레이크의 핵심 스토리지. 버킷 정책·수명주기 정책·버전관리·멀티파트 업로드·이벤트 알림·Cross-Region Replication 필수 개념. 파티셔닝(연/월/일) 구조로 쿼리 비용 절감.
≈ HDFS / Qumulo NAS창고 전체 목록 장부
중앙 메타데이터 저장소. Athena·EMR·Redshift Spectrum이 모두 참조. Apache Hive Metastore 호환. Crawler가 자동으로 채워줌.
≈ Apache Hive Metastore버전 기록이 있는 스마트 창고
S3 위의 오픈 테이블 포맷. ACID 트랜잭션·스키마 진화·Time Travel·파티션 진화 지원. Glue/EMR/Athena에서 Iceberg 테이블 직접 지원.
≈ 온프렘 Iceberg 그대로관리형 사무실 파일 캐비닛
관리형 RDBMS. MySQL/PostgreSQL/Oracle/SQL Server/MariaDB 지원. Multi-AZ로 고가용성. Read Replica로 읽기 부하 분산. 수동 스케일링.
고성능 터보 캐비닛
클라우드 네이티브 RDBMS. 스토리지 자동 확장(최대 128TB). Aurora Global Database로 멀티 리전 복제. Serverless v2는 초 단위 자동 스케일.
초고속 인덱스 카드함
완전 관리형 NoSQL Key-Value/Document DB. 1ms 미만 응답. 자동 스케일. DynamoDB Streams로 변경 사항 캡처(CDC). Global Tables로 멀티 리전 복제.
책상 위 메모지
Redis/Memcached 완전 관리형 인메모리 캐시. DB 부하 분산·세션 관리·실시간 리더보드에 활용. Redis는 영속성·복제·클러스터 지원.
대형 분석 연구소 (데이터 웨어하우스)
컬럼 기반 데이터 웨어하우스. Redshift Spectrum으로 S3 데이터 직접 조회. RA3 노드는 스토리지·컴퓨팅 분리. Serverless 버전도 지원. COPY 명령으로 S3 대량 적재.
≈ Apache Doris / ClickHouse구글 같은 전문 검색 엔진
Elasticsearch 포크. 전문(Full-Text) 검색·로그 분석·이상 탐지. OpenSearch Dashboards(구 Kibana) 내장. Kinesis Firehose와 연동해 실시간 로그 수집에 많이 사용.
≈ Elasticsearch + Kibana시간대별 기상 관측 기록지
완전 관리형 시계열 DB. IoT 센서·서버 메트릭·애플리케이션 모니터링에 특화. 자동 데이터 티어링(최신/오래된 데이터 자동 분리).
유연한 JSON 서류 캐비닛
MongoDB 호환 완전 관리형 문서 DB. 유연한 스키마로 반정형 데이터 저장. 콘텐츠 관리·사용자 프로필·카탈로그 데이터에 적합.
데이터 레이크 종합 관리 본부
데이터 레이크 구축·보안·거버넌스 통합 관리 서비스. 열(Column) 수준·행(Row) 수준 접근제어. Glue Data Catalog 위에서 동작. Blueprint로 데이터 레이크 자동 구성. LF-Tags 기반 속성 기반 접근제어(ABAC).
≈ Apache Ranger + 권한 관리데이터 운영 및 지원
Data Operations & Support
🏥 병원 운영팀 — 의사(분석가)가 진료에 집중할 수 있도록 CCTV(모니터링), 청소(데이터 품질), 행정(자동화), 연구실(머신러닝)을 관리하는 팀입니다. 데이터가 잘 흐르고 있는지 감시하고 문제가 생기면 즉시 대응합니다.
창고에서 바로 재고 조회
서버리스 SQL 쿼리 엔진. S3 데이터 직접 쿼리. 스캔량 기준 과금(TB당). Glue Catalog 연동. Parquet/ORC 포맷 + 파티셔닝으로 비용·성능 최적화 필수.
≈ Trino / Presto자동 보고서 그래프 생성기
서버리스 BI 도구. ML 기반 이상치 탐지·자연어 질의(Q&A). SPICE 인메모리 엔진으로 빠른 대시보드. 사용자당 과금(Reader/Author).
≈ Grafana / Superset / TableauML 실험 연구소 + 대량 생산 공장
🧑💻 SageMaker Studio = 연구실 IDE
🏋️ Training Jobs = 모델 훈련소
🏪 Feature Store = 피처 재료 창고
🚀 Endpoints = 모델 배포 서버
🔄 Pipelines = MLOps 자동화 라인
🕵️ Model Monitor = 모델 품질 감시원
ML 전 생명주기 플랫폼. SageMaker Processing(데이터 전처리), Ground Truth(레이블링), Clarify(편향 탐지), Canvas(노코드 ML) 포함. 데이터 엔지니어 시험에서는 Feature Store·Processing·Pipelines 중심 출제.
≈ MLflow + JupyterHub + Kserve + Triton건물 CCTV + 화재 경보기
메트릭·로그·알람·대시보드 통합. CloudWatch Logs Insights로 로그에 SQL 쿼리 가능. Composite Alarm으로 복합 조건 경보. 커스텀 메트릭 발행 가능.
≈ Prometheus + Grafana회사 전체 출입 블랙박스
모든 API 호출 이력 기록. 보안 감사·규정 준수에 필수. S3 또는 CloudWatch Logs에 적재. Athena로 분석 가능. 시험 팁: "누가 삭제했나?" → CloudTrail
노코드 데이터 품질 검사원
노코드 데이터 프로파일링·정제. 250+ 내장 변환 함수. 수정 레시피를 Glue ETL Job으로 배포 가능. 데이터 품질 규칙(DQ Rules) 정의·평가 지원.
AWS 자산 규정 준수 감사관
AWS 리소스 구성 변경 이력·규정 준수 지속 모니터링. AWS Managed Rules 제공. 자동 교정(Remediation) 가능. 시험 팁: "버킷이 퍼블릭?" → Config
데이터 규격 자동 검수 라인
Glue ETL 파이프라인 내 데이터 품질 규칙 정의·실행·모니터링. DQDL(Data Quality Definition Language) 사용. 품질 실패 시 파이프라인 중단 또는 경고 설정.
데이터 마켓플레이스 + 포털
데이터 거버넌스·카탈로그·공유 플랫폼. 비즈니스 사용자가 데이터를 검색·요청. 데이터 생산자는 퍼블리시·승인 관리. Lake Formation과 통합.
데이터 보안 및 거버넌스
Data Security & Governance
🏦 은행 보안 시스템 전체 — 누가 들어올 수 있고(인증), 어디까지 볼 수 있고(권한), 데이터를 잠그고(암호화), 모든 행동을 기록(감사)하는 전체 보안 체계입니다. 비중은 18%로 가장 낮지만, 다른 도메인 문제에도 보안 요소가 포함됩니다.
사원증 + 출입 권한 시스템
AWS 인증·인가의 핵심. IAM Role은 임시 자격증명(STS). 최소권한(Least Privilege) 원칙. Policy = JSON 문서. 리소스 기반 정책 vs 자격증명 기반 정책 구분 필수.
열쇠 전문 보관소
암호화 키 관리. CMK(고객 관리 키) vs AWS 관리 키 vs AWS 소유 키. 봉투 암호화(Envelope Encryption) 중요. 키 교체·감사·삭제 관리. KMS로 S3 SSE-KMS 암호화.
비밀번호 전용 금고
시크릿 저장·자동 교체·접근제어. DB 자격증명 자동 교체(Lambda 기반). Parameter Store(단순 설정값)와 차이: Secrets Manager는 자동 교체 + 더 높은 보안.
회사 내부 전용 격리 네트워크
논리적 네트워크 격리. Security Group(인스턴스 방화벽) vs NACL(서브넷 방화벽). NAT Gateway(내부→인터넷). VPN/Direct Connect(온프렘 연결). VPC Peering(VPC 간 연결).
개인정보 자동 탐지 로봇
ML 기반 민감 데이터 자동 탐지·분류. S3 객체 전체 스캔. 커스텀 정규식 패턴 추가 가능. 탐지 결과를 EventBridge·Security Hub에 전달 가능.
개인정보 모자이크 처리
Glue ETL 변환 또는 Lake Formation의 열(Column) 수준·행 필터(Row Filter) 마스킹으로 구현. 동적 데이터 마스킹(DDM)으로 사용자별 다른 뷰 제공.
전용 지하 통로
VPC 내부에서 S3·Kinesis·Glue 등 AWS 서비스를 인터넷 없이 프라이빗하게 접근. Interface Endpoint(ENI 기반) vs Gateway Endpoint(S3/DynamoDB 전용).
AI 보안 위협 탐지 경비원
ML 기반 위협 탐지. CloudTrail·VPC Flow Logs·DNS 로그 분석. 즉시 활성화 가능(에이전트 불필요). 탐지 결과를 EventBridge로 자동 대응 가능.
입구 보안 검색대
웹 애플리케이션 방화벽. SQL 인젝션·XSS·봇 차단. 규칙 기반 트래픽 필터. ALB/API Gateway/CloudFront/AppSync에 연결. Managed Rules(AWS/Marketplace 제공) 활용.
시험에서 가장 헷갈리는 구분!
② CloudWatch = 📹 CCTV + 알람 — "지금 어떤 상태인가, 이상하면 경보" (메트릭·로그 모니터링)
③ Config = 📋 규정 준수 감사관 — "현재 설정이 우리 규칙에 맞나?" (리소스 구성 변경 추적)
시험 답 가이드:
"누가 S3 버킷을 삭제했나?" → CloudTrail
"Lambda 에러율이 갑자기 높아졌나?" → CloudWatch
"S3 버킷이 퍼블릭 접근 허용 상태인가?" → Config
"지난 30일간 보안 그룹이 몇 번 변경됐나?" → Config
Apache Kafka → Kinesis Data Streams
NiFi / Fluentd → Kinesis Firehose
MQTT Broker → AWS IoT Core
Hive Metastore → Glue Data Catalog
Iceberg on HDFS → Iceberg on S3
Apache Doris → Amazon Redshift
Apache Spark (서버리스) → AWS Glue ETL
Apache Airflow → Amazon MWAA
Trino / Presto → Amazon Athena
Apache Flink → Kinesis Data Analytics
HashiCorp Vault → AWS Secrets Manager
Keycloak → AWS IAM + Cognito
MLflow + Kserve → Amazon SageMaker
Elasticsearch + Kibana → OpenSearch Service
① Domain 1이 34%이므로 Kinesis·Glue·MWAA·Step Functions를 중점적으로.
② 온프렘 스택을 써봤다면 매핑 표에서 1:1 대응 서비스부터 시작하세요.
③ "어떤 서비스를 써야 하나?" 시나리오 문제는 서버리스 vs 관리형 vs 자체 관리 키워드로 접근.
④ 보안 문제는 CloudTrail(감사) / CloudWatch(모니터링) / Config(규정준수) 3종 구분만 명확히 해도 상당수 해결.
'Stack > AWS' 카테고리의 다른 글
| [AWS DEA] Domain 1 데이터 파이프라인 오케스트레이션 완전 정리 (0) | 2026.03.17 |
|---|---|
| [AWS DEA] 문제로 공부하기 20 - OpenSearch (0) | 2026.03.16 |
| [AWS DEA] Domain 1 데이터 변환 및 처리 완전 정리 (1) | 2026.03.16 |
| [AWS DEA] Domain 1 데이터 수집(Data Ingestion) 완전 정리 (0) | 2026.03.15 |
| [AWS DEA] Data Engineering Fundamentals (with AWS Toolkit) (0) | 2026.03.15 |