본문 바로가기

Stack/AWS

[AWS DEA] 문제로 공부하기 7 - 데이터 공유 + Redshift 서버리스

반응형
AWS DEA-C01 Redshift 테스트 환경 비용 최적화 | 데이터 공유 + 서버리스 완전 정리

Redshift 테스트 환경 비용 최적화 — 데이터 공유 + 서버리스가 정답인 이유

AWS DEA-C01 시험에 자주 나오는 Redshift 비용 최적화 문제입니다. 2주마다 단 2시간만 사용하는 테스트 Redshift 환경가장 비용 효율적으로 구성할 때, 데이터 공유 + 서버리스 / S3 언로드 + Glue / Spectrum / 스냅샷 복원 4가지 방식의 비용 구조를 도식으로 비교 정리합니다.

📋 문제

Amazon Redshift 클러스터를 운영 중인 회사가 있다. 데이터 엔지니어는 별도의 테스트 환경에서 분석 자료를 얻을 수 있도록 솔루션을 설계해야 한다. 솔루션은 기본 Redshift 클러스터의 데이터를 사용한다. 두 번째 클러스터는 새로운 테스트 프로세스의 일환으로 2주마다 2시간 동안만 사용될 것으로 예상된다.

다음 중 가장 비용 효율적인 방식으로 이러한 요구 사항을 충족하는 솔루션은 무엇인가?

✅ 핵심 요구사항 체크

  • 📊
    기본 Redshift 클러스터 데이터 활용
    데이터를 복제하거나 별도로 이동하지 않고 프로덕션 데이터를 테스트 환경에서 사용
  • ⏱️
    2주마다 2시간만 사용 (극히 간헐적 사용)
    한 달 기준 약 4시간만 실행 → 상시 프로비저닝된 클러스터는 낭비, 사용 시간만 과금되는 구조 필요
  • 💰
    가장 비용 효율적인 솔루션
    데이터 복제 비용 + 추가 서비스 비용 + 컴퓨팅 비용 모두 고려하여 최저 총비용(TCO) 달성

⏰ 테스트 환경 사용 패턴 (4주 기준)

미사용 (13일)
1주차
2h
2주 도래
미사용 (13일)
3주차
2h
4주 도래

한 달 336시간 중 실제 사용 4시간 → 상시 프로비저닝 클러스터는 332시간 낭비 💸

📐 솔루션별 비용 구조

🔗
데이터 공유 + Redshift 서버리스 ⭐
Data Sharing + Serverless
  • 데이터 공유: 추가 비용 없음
  • 데이터 복제 없음 → S3 비용 없음
  • 서버리스: 사용 시간(2h×2)만 과금
  • 미사용 시 컴퓨팅 비용 완전 0
✅ 총비용 최저
⚙️
S3 언로드 + Glue ETL
S3 Unload + AWS Glue Job
  • S3 저장 비용 발생 (데이터 복제)
  • Glue ETL 작업 실행 비용 발생
  • 데이터 로드 시간 추가 소요
  • 2주마다 반복 실행 비용 누적
⚠️ 복제 + ETL 비용 발생
🔭
S3 언로드 + Redshift Spectrum
S3 + Spectrum 외부 테이블
  • S3 저장 비용 발생 (데이터 복제)
  • Spectrum: S3 스캔량 기준 과금
  • 테스트 클러스터 컴퓨팅 비용
  • 스캔 쿼리 반복 시 비용 급증
⚠️ 복제 + 스캔 비용 발생
💾
수동 스냅샷 복원 (동일 노드)
Manual Snapshot → 동일 클러스터 복원
  • 프로덕션과 동일 노드 구성 복원
  • 미사용 시에도 상시 컴퓨팅 과금
  • 스냅샷 스토리지 비용 별도
  • 선택지 중 비용 가장 높음
❌ 비용 가장 높음

💰 솔루션별 예상 월 비용 비교 (낮을수록 좋음)

데이터공유 + 서버리스 ⭐
최저
사용분만 과금
S3 언로드 + Glue
중간
S3 + Glue 비용
S3 언로드 + Spectrum
중간
S3 + 스캔 비용
스냅샷 복원 (동일 노드)
상시 과금
가장 높음

📝 선택지 해설

각 항목을 클릭하면 해설이 펼쳐집니다.

💡 기술적으로 가능하지만 S3 데이터 복제 비용Glue ETL 작업 실행 비용이 2주마다 추가로 발생합니다. 데이터 공유를 사용하면 이 비용들이 완전히 사라지므로 상대적으로 비용 효율적이지 않습니다.
💡 정답. Redshift 데이터 공유(Data Sharing)는 데이터 복제 없이 클러스터 간 실시간 데이터 접근을 제공하며 추가 비용이 없습니다. 테스트 환경에 Redshift 서버리스를 사용하면 워크로드가 없을 때 컴퓨팅 비용이 0이 되고, 2시간 사용 시간에 대해서만 과금됩니다. 한 달 기준 4시간치 서버리스 비용만 발생해 총비용이 가장 낮습니다.
💡 Spectrum은 S3 데이터를 직접 쿼리할 수 있지만 스캔한 데이터 양(TB 단위)에 따라 요금이 청구됩니다. 또한 S3로 데이터를 복제해야 하므로 스토리지 비용도 발생합니다. 테스트 쿼리를 반복할수록 스캔 비용이 누적되어 비용 효율이 떨어집니다.
💡 프로덕션과 동일한 노드 수·구성으로 클러스터를 복원하면 2시간만 사용해도 나머지 시간 동안 컴퓨팅 비용이 그대로 청구됩니다. 프로비저닝된 Redshift 클러스터는 실행 중이면 항상 과금됩니다. 선택지 중 비용이 가장 높은 방식입니다.

정답: B — Redshift 데이터 공유 + Redshift 서버리스

두 가지 비용 절감 포인트가 결합된 정답입니다. 데이터 공유로 복제·이동 비용을 제거하고, 서버리스로 미사용 시간의 컴퓨팅 비용을 완전히 없앱니다. 한 달에 4시간만 사용하는 워크로드에서 가장 효율적인 구성입니다.

# 비용 절감 포인트 2가지 1. Redshift 데이터 공유 (Data Sharing) 프로덕션 클러스터 ──(공유, 복제 없음)──▶ 테스트 서버리스 추가 비용: $0 (데이터 이동 없음) 2. Redshift 서버리스 (Serverless) 미사용 시간 (332h) → 컴퓨팅 비용 $0 실제 사용 (4h/월) → 사용 시간만 과금 vs 프로비저닝 클러스터: 미사용 332h에도 ⚠️ 시간당 과금 계속 발생

📊 선택지 비교 요약

선택지 데이터 이동 추가 비용 항목 미사용 과금 비용 효율
A. S3 + Glue S3 복제 S3 + Glue 실행비 없음 보통
B. 데이터공유 + 서버리스 ⭐ 없음 (공유) 없음 없음 최고
C. S3 + Spectrum S3 복제 S3 + 스캔량 과금 클러스터 과금 보통
D. 스냅샷 복원 스냅샷 스냅샷 스토리지 상시 과금 최저
#AWS_DEA-C01 #AWS데이터엔지니어 #AmazonRedshift #Redshift데이터공유 #RedshiftServerless #Redshift서버리스 #RedshiftSpectrum #Redshift스냅샷 #비용최적화 #테스트환경 #AWSGlue #데이터웨어하우스 #AWS자격증
반응형