본문 바로가기

Stack/AWS

[AWS DEA] 아키텍처 플레이북 (feat. NotebookLM)

반응형

AWS 데이터 엔지니어링 완벽 가이드 및 모던 아키텍처 플레이북

  • DEA-C01 자격증 취득을 위한 4대 핵심 도메인을 마스터할 수 있습니다.
  • 데이터 수집부터 보안까지 아우르는 확장 가능하고 안전한 모던 데이터 플랫폼 구축 방법을 다룹니다.

AWS 공인 데이터 엔지니어의 핵심 역량 및 검증 영역

  • [Domain 1] Data Ingestion and Transformation (34%): 스트리밍 및 배치 데이터 수집, 서버리스 ETL 파이프라인을 다룹니다.
  • [Domain 2] Data Store Management (26%): 스토리지 라이프사이클 관리, 데이터 카탈로그, 스키마 설계를 포함합니다.[Domain 3] Data Operations and Support (22%): 자동화, 데이터 품질 검증, 성능 모니터링을 검증합니다.
  • [Domain 4] Data Security and Governance (18%): 인증, 권한 부여, 암호화 및 PII 보호를 다룹니다.
  • 시험 범위에서 머신러닝 모델 학습 및 비즈니스 결론 도출은 제외됩니다.

데이터 사일로를 허무는 모던 데이터 아키텍처 4단계

  • Raw Layer: 원본 형식 그대로 저장되는 초기 랜딩 존으로, 장기 보존 및 감사 목적을 가집니다.
  • Standardized Layer: Apache Parquet 등 표준 형식으로 변환하며, 스키마 검증 및 데이터 클렌징을 수행합니다.
  • Conformed Layer: 조직 전체에서 통용되는 공통 엔티티로, 데이터 카탈로그를 통한 중앙 집중식 거버넌스가 적용됩니다.
  • Enriched Layer: 비즈니스 도메인별로 맞춤화된 골든 데이터셋(Golden Datasets)을 제공합니다.

유연한 데이터 활용을 위한 3가지 데이터 이동 패턴

  • Inside-Out: Data Lake(Amazon S3)의 데이터를 전문화된 분석을 위해 목적별 DB(Amazon Neptune 등)로 이동시킵니다.
  • Outside-In: 애플리케이션에 최적화된 DB(DynamoDB 등)의 데이터를 분석을 위해 Data Lake로 복제합니다.
  • Around the Perimeter: 특화된 데이터 스토어 간의 직접적인 이동을 의미합니다.

[Domain 1] 데이터의 유입: 배치와 스트리밍의 융합

  • 스트리밍 데이터 수집: Amazon Kinesis, MSK, DynamoDB Streams를 활용하여 실시간 팬인/팬아웃 분배를 수행합니다.
  • 배치 데이터 수집: Amazon S3, RDS, API를 통해 대용량 데이터 스케줄링을 진행하며, EventBridge 및 Apache Airflow로 이벤트 트리거를 구성합니다.
  • 상태 저장(Stateful) 및 상태 비저장(Stateless) 데이터 트랜잭션의 최적화를 다룹니다.

[Domain 1] 최적의 파이프라인 오케스트레이션 도구 선택

  • AWS Data Pipeline: S3와 EMR, RDS 간의 예약된 워크플로우에 적합한 배치 기반의 단순한 데이터 이동 도구입니다.
  • AWS Glue: 서버리스 ETL의 핵심으로, Spark 기반의 데이터 변환과 Glue Data Catalog를 통한 메타데이터 관리를 지원합니다.
  • AWS Step Functions: 분기 처리, 병렬 실행, 오류 재시도 및 마이크로서비스 조정에 탁월한 비즈니스 및 애플리케이션 워크플로우 오케스트레이션 서비스입니다.

[Domain 1] 코딩 없는 데이터 정제: AWS Glue DataBrew

  • 시각적 데이터 준비: 코딩 지식 없이도 분석가와 데이터 과학자가 직접 데이터를 정제할 수 있습니다.
  • DataBrew Recipe: 이상치 필터링, 결측값 처리, 텍스트 정규화 등 250개 이상의 내장된 트랜스포메이션 레시피를 제공합니다.
  • 자동화 및 추적: 시각적 데이터 계보 추적을 통해 투명성을 확보하고, Data Profiling으로 데이터 품질을 검증합니다.

[Domain 1] 데이터 수집의 미래: Zero-ETL 통합

  • 트랜잭션 데이터를 분석하기 위한 별도의 ETL 파이프라인 구축 및 유지보수 작업을 완전히 제거하여 복잡성을 줄입니다.
  • 트랜잭션 소스(Amazon Aurora, DynamoDB 등)의 데이터 변경 사항이 거의 실시간(Near real-time)으로 Amazon Redshift에 동기화됩니다.
  • 머신러닝 및 AI 모델의 지연 없는 최신 데이터 기반 학습을 지원합니다.

[Domain 2] 모던 데이터 스토어의 중심: Amazon S3

  • Storage Classes: 비용 최적화를 위해 지능형 계층화(Intelligent-Tiering) 및 보관(Glacier) 정책을 적용합니다.
  • 데이터 라이프사이클: S3 Lifecycle 정책을 활용해 핫/콜드 데이터 자동 전환 및 삭제를 자동화합니다.
  • 데이터 카탈로그: AWS Glue Crawler를 통해 스키마를 자동 검색하고 파티션을 동기화하며, Apache Hive 메타스토어와 호환됩니다.

[Domain 2] Amazon S3의 진화: 차세대 데이터 워크로드

  • Directory Buckets (S3 Express One Zone): 성능 집약적 워크로드를 위한 초저지연 아키텍처를 지원합니다.
  • S3 Tables: Apache Iceberg V3 형식을 기본 지원하며 AWS 분석 서비스와 완벽하게 통합됩니다.
  • S3 Vectors: 생성형 AI 애플리케이션을 위한 벡터 임베딩 저장과 고속 밀리초 쿼리를 지원합니다.

[Domain 3] 파이프라인 가시성 확보 및 운영 자동화

  • 모니터링 및 트러블슈팅: Amazon CloudWatch Logs 및 CloudTrail로 API를 추적하고 애플리케이션 로그를 분석하며, Amazon Athena를 이용해 대용량 로그를 쿼리합니다.
  • 데이터 품질 제어: 파이프라인 내 데이터의 일관성, 정확성, 무결성을 검증하기 위한 규칙을 자동화합니다.
  • CI/CD 및 IaC: AWS CloudFormation, AWS SAM을 활용하여 서버리스 파이프라인의 반복 가능한 인프라 배포를 구현합니다.

[Domain 3] 엔터프라이즈 스토리지 최적화: S3 Storage Lens

  • 계정, 리전, 버킷, 접두사 레벨까지 드릴다운 가능한 60개 이상의 메트릭을 지원하여 조직 단위의 통합 뷰를 제공합니다.
  • 불완전한 멀티파트 업로드 및 불필요한 비최신 버전 데이터를 식별해 비용 낭비를 제거함으로써 비용을 최적화(6배의 ROI)합니다.
  • MFA Delete 비활성화 버킷이나 암호화되지 않은 객체를 실시간 탐지해 보안 상태를 강화합니다.

[Domain 4] 철벽의 다계층 데이터 보안 및 거버넌스 아키텍처

  • 네트워크 보안: VPC Security Group 및 AWS PrivateLink를 활용해 안전하게 트래픽을 라우팅합니다.
  • 인증 및 인가 (최소 권한 원칙): IAM Role, Bucket Policy, S3 Access Point를 활용해 세분화된 접근 제어를 수행합니다.
  • 암호화 및 거버넌스: AWS KMS를 활용해 저장 데이터 및 전송 중 데이터를 암호화하고, Amazon Macie를 통해 PII를 탐지 및 마스킹합니다.

[Domain 4] S3 권한 관리의 현대화

  • ACL 비활성화 (Object Ownership): 객체 소유권 강제를 통해 복잡한 레거시 ACL 의존성을 제거하고 Bucket Policy 중심으로 단순화합니다.
  • S3 Access Grants 적용: 기업 디렉터리(IAM Identity Center)와 연동하여 사용자 그룹 권한에 기반한 확장 가능한 동적 접근 권한 관리를 제공합니다.
  • 수만 명의 사용자 접근을 단일 정책으로 손쉽게 스케일링할 수 있습니다.

AWS 데이터 엔지니어링 마스터리를 향한 로드맵

  • 모던 데이터 아키텍처 구축은 곧 DEA-C01 자격증 핵심 역량의 완성을 의미합니다.
  • [1] Zero-ETL 및 DataBrew를 통한 수집/변환 구조를 현대화합니다.
  • [2] S3의 라이프사이클 및 차세대 스토리지 혁신을 마스터합니다.
  • [3] Step Functions와 Storage Lens로 운영 효율성을 6배 극대화합니다.
  • [4] 객체 소유권 및 KMS 중심의 무결점 보안 아키텍처를 확보합니다.
반응형