본문 바로가기

Stack/AWS

[AWS DEA] 데이터 엔지니어링 핵심 파이프라인 및 AWS 서비스 용어 매핑

반응형

[AWS DEA] 데이터 엔지니어링 핵심 파이프라인 및 AWS 서비스 용어 매핑

데이터 엔지니어링의 기본 개념은 익숙하지만, AWS 환경에 처음 입문하거나 AWS Data Engineering Associate (DEA-C01) 자격증을 준비하면서 특유의 서비스 이름들 때문에 헷갈리셨던 경험이 있으신가요?

데이터 파이프라인의 4단계 흐름(수집, 저장, 처리, 분석)과 오케스트레이션 영역에서 일반적인 데이터 엔지니어링 용어가 AWS의 어떤 서비스와 1:1로 매칭되는지 직관적으로 정리해 보았습니다.

1. 데이터 수집 (Data Ingestion)

  • 실시간 스트리밍 데이터 수집 👉 Amazon Kinesis: 오픈소스인 Apache Kafka와 유사한 역할을 하는 AWS의 대표적인 스트리밍 서비스입니다. 데이터 보관 및 전달을 담당하는 Kinesis Data Streams와 S3 등으로 데이터 포맷을 변환하여 즉시 전송해 주는 Kinesis Data Firehose의 차이를 아는 것이 중요합니다.
  • DB 마이그레이션 및 실시간 데이터 캡처(CDC) 👉 AWS DMS: 온프레미스 데이터베이스를 AWS 클라우드로 안전하게 옮기거나, 소스 DB에서 발생하는 변경 사항을 실시간으로 타겟 데이터스토어에 복제(CDC)할 때 필수적으로 사용되는 서비스입니다.

2. 데이터 저장 (Data Storage)

  • 데이터 레이크 및 무제한 객체 저장소 👉 Amazon S3: AWS 데이터 파이프라인의 중심이자 가장 핵심이 되는 스토리지입니다. 정형, 반정형, 비정형 데이터를 모두 담을 수 있으며, 시험에서는 접근 빈도에 따른 스토리지 계층(Storage Class) 비용 최적화가 자주 출제됩니다.
  • 클라우드 데이터 웨어하우스(OLAP) 👉 Amazon Redshift: 대규모 정형 데이터 분석에 특화된 서비스로, 페타바이트급 데이터에 대해 엄청나게 빠른 병렬 쿼리(MPP) 처리 성능을 제공합니다.

3. 데이터 처리 및 변환 (Data Processing)

  • 서버리스 ETL 및 메타데이터 관리 👉 AWS Glue: 인프라 관리 없이 Apache Spark 환경을 기반으로 데이터 추출, 변환, 적재(ETL) 작업을 실행할 수 있는 완벽한 서버리스 서비스입니다. 특히 Glue Data Catalog는 S3에 저장된 데이터의 스키마와 위치를 기록하는 메타데이터 저장소로서 아키텍처의 핵심 지도 역할을 합니다.
  • 빅데이터 분산 처리 클러스터 👉 Amazon EMR: Hadoop, Spark, Presto 등 방대한 오픈소스 빅데이터 프레임워크를 EC2 인스턴스 위에서 직접 실행하고, 클러스터 자원을 세밀하게 튜닝해야 하는 워크로드에 적합합니다.

4. 데이터 분석 및 시각화 (Data Analysis)

  • S3 데이터 직접 쿼리 (서버리스 분석) 👉 Amazon Athena: 데이터를 별도의 DB나 데이터 웨어하우스로 적재할 필요 없이, S3에 저장된 파일(Parquet, CSV, JSON 등)을 표준 SQL로 즉시 조회할 수 있는 대화형 쿼리 서비스입니다.
  • BI 대시보드 및 시각화 👉 Amazon QuickSight: Tableau나 Power BI를 대체할 수 있는 AWS의 클라우드 네이티브 비즈니스 인텔리전스(BI) 도구로, 분석된 데이터를 시각화하고 인사이트를 도출하는 데 사용됩니다.

⚙️ 파이프라인 오케스트레이션 및 거버넌스

데이터가 흐르는 전체 과정을 제어하고 안전하게 지키기 위한 관리 영역입니다.

  • 워크플로우 스케줄링 및 자동화 👉 AWS Step Functions / Amazon MWAA: AWS 환경에 특화된 시각적 상태 머신인 Step Functions, 그리고 완전 관리형 Apache Airflow인 MWAA를 통해 파이프라인을 자동화합니다.
  • 권한 제어 및 강력한 보안 👉 IAM / KMS / AWS Lake Formation: 세밀한 접근 권한 제어(IAM), 데이터 암호화 키 관리(KMS), 그리고 데이터 레이크 환경의 정밀한 접근 권한을 중앙 집중식으로 관리하는 Lake Formation이 사용됩니다.

💡 AWS 데이터 엔지니어링 자격증을 준비하시거나, 실무에서 AWS 기반 모던 데이터 플랫폼을 구축하시는 분들께 아래의 시각화 매핑 가이드가 직관적인 도움이 되길 바랍니다!

☁️ AWS Data Engineering 흐름도 및 용어 매핑

1. 수집 (Ingestion)

실시간 스트리밍 데이터 수집
Amazon Kinesis
Kafka와 유사. Data Streams(보관 및 전달)와 Firehose(포맷 변환 후 전송)로 나뉨.
DB 마이그레이션 / CDC
AWS DMS
온프레미스 DB를 클라우드로 옮기거나, 실시간 변경 데이터 캡처(CDC) 수행.

2. 저장 (Storage)

데이터 레이크 (객체 저장소)
Amazon S3
모든 정형/비정형 데이터를 담는 무제한 스토리지. 계층에 따른 비용 최적화가 핵심.
데이터 웨어하우스 (OLAP)
Amazon Redshift
대규모 정형 데이터 분석에 특화. 초고속 병렬 쿼리(MPP) 처리 제공.

3. 처리 (Processing)

서버리스 ETL 및 메타데이터 관리
AWS Glue
인프라 관리 없는 Spark 기반 ETL. Data Catalog는 S3 데이터의 핵심 지도 역할.
빅데이터 분산 처리 클러스터
Amazon EMR
Hadoop, Spark 등을 직접 EC2 서버 위에서 돌리고 세밀하게 튜닝할 때 사용.

4. 분석 (Analysis)

S3 데이터 직접 쿼리 (서버리스)
Amazon Athena
DB 적재 없이, S3에 있는 파일(Parquet, CSV 등)을 그대로 SQL로 즉시 조회.
BI 대시보드 및 시각화
Amazon QuickSight
AWS 클라우드 네이티브 BI 도구. 데이터 시각화 및 인사이트 도출.

⚙️ 오케스트레이션 & 거버넌스 (파이프라인 전반)

워크플로우 스케줄링 (Airflow 등)
Step Functions / MWAA
시각적 상태 머신(Step Functions)과 완전 관리형 Apache Airflow 환경(MWAA).
권한 제어 및 보안
IAM / KMS / Lake Formation
접근 권한(IAM), 암호화 키(KMS), 데이터 레이크의 세밀한 중앙 권한 제어(Lake Formation).
반응형