본문 바로가기

Stack/AWS

[AWS DEA] 문제로 공부하기 8 - Spectrum + S3 Glacier Deep Archive

반응형
AWS DEA-C01 Redshift 데이터 수명주기 비용 최적화 | Redshift Spectrum + S3 Glacier 완전 정리

Redshift 데이터 수명주기 비용 최적화 — Spectrum + S3 Glacier Deep Archive가 정답인 이유

AWS DEA-C01 시험에 자주 나오는 데이터 수명주기 비용 최적화 문제입니다. 최근 3개월은 Redshift에서 활성 분석, 3~12개월은 S3 + Redshift Spectrum으로 연간 분석, 12개월 이후는 S3 Glacier Deep Archive로 규정 준수 보관하는 3단계 수명주기 아키텍처를 도식으로 비교 정리합니다. Redshift Spectrum이 접근할 수 없는 스토리지 등급도 함께 정리합니다.

📋 문제

회사에서는 여러 운영 소스에서 Amazon S3 데이터 레이크로 데이터를 수집하고, 비즈니스 분석팀이 분석할 수 있도록 Amazon Redshift에 수집한다. 분석팀은 최근 3개월의 고객 데이터에만 상시 액세스할 수 있어야 한다.

또한 회사는 일 년에 한 번 전년도 데이터를 상세 분석하여 지난 12개월 전체 결과와 비교한다. 분석 후에는 데이터에 더 이상 액세스할 수 없다. 그러나 규정 준수를 위해 12개월 이후에도 데이터를 보관해야 한다.

다음 중 가장 비용 효율적인 방식으로 요구 사항을 충족하는 솔루션은 무엇인가?

✅ 핵심 요구사항 분석

  • 📊
    상시 분석: 최근 3개월 데이터
    분석팀이 빠르게 쿼리해야 하는 활성 데이터 → Redshift 클러스터에 적재
  • 📅
    연 1회 분석: 최대 12개월 전 데이터
    연간 한 번만 접근 → Redshift에 12개월치 모두 유지하면 낭비, S3 + Spectrum이 적합
  • 🔒
    장기 보관(규정 준수): 12개월 이후
    더 이상 접근 없음, 비용 최저화 필요 → S3 Glacier Deep Archive (GB당 가장 저렴)

📐 정답 데이터 수명주기 아키텍처

0 ~ 3개월
🏢
Amazon Redshift
상시 쿼리
고성능 분석
3 ~ 12개월
🪣
Amazon S3
+ Spectrum
연 1회 분석
언로드 후 삭제
12개월 이후
🧊
S3 Glacier
Deep Archive
규정 준수 보관
액세스 없음

🔄 데이터 이동 흐름

데이터 수집 (S3 → Redshift)
3개월치만 유지
Redshift (3개월 초과 데이터)
S3 언로드 후 Redshift 삭제
자동화 프로세스
S3 (3~12개월 데이터)
Redshift Spectrum으로 연간 분석
S3 (12개월 초과 데이터)
S3 수명주기 정책 → Glacier Deep Archive

🧊 S3 Glacier 등급 비교 — Redshift Spectrum 접근 가능 여부

Glacier
Instant Retrieval
  • 즉시 조회 가능 (ms)
  • 분기별 접근 대상
  • S3 Standard보다 저렴
  • Redshift UNLOAD
    직접 불가 ⚠️
  • Spectrum 접근 불가 ⚠️
⚠️ Spectrum 불가
🕐
Glacier
Flexible Retrieval
  • 조회 1~12시간
  • 연 1~2회 접근
  • Instant보다 저렴
  • Redshift UNLOAD
    직접 불가 ⚠️
  • Spectrum 접근 불가 ⚠️
⚠️ Spectrum 불가
🧊
Glacier
Deep Archive ⭐
  • 조회 12시간 이내
  • 연 1회 이하 접근
  • GB당 가장 저렴
  • S3 수명주기로
    자동 이전 가능 ✅
  • 장기 보관 최적
✅ 규정 준수 보관 최적

⚠️ 핵심 함정: Redshift UNLOAD 명령은 S3 Glacier 계열로 직접 언로드 불가 → 반드시 S3 Standard/Intelligent-Tiering으로 언로드 후 수명주기 정책으로 이전해야 함

📝 선택지 해설

각 항목을 클릭하면 해설이 펼쳐집니다.

💡 Glacier Deep Archive 이전 방식은 올바르지만, 분석팀이 필요한 건 최근 3개월 데이터뿐인데 Redshift에 12개월치 전부를 유지합니다. 3~12개월 데이터는 연 1회만 접근하는데, 이 기간 내내 Redshift 클러스터 컴퓨팅 비용이 발생합니다. 가장 비용 효율적인 방식이 아닙니다.
💡 두 가지 치명적 오류가 있습니다. 첫째, Redshift UNLOAD 명령은 S3 Glacier Deep Archive로 직접 언로드할 수 없습니다. 반드시 S3 Standard로 먼저 언로드해야 합니다. 둘째, Redshift Spectrum은 S3 Glacier Deep Archive에 저장된 데이터에 접근·쿼리할 수 없습니다. Spectrum은 S3 Standard, Intelligent-Tiering 등 즉시 접근 가능한 스토리지 클래스만 지원합니다.
💡 정답. 3단계 수명주기 전략이 모든 요건을 비용 최적화 방식으로 충족합니다. ① Redshift에는 3개월치만 유지 → 최소 컴퓨팅 비용, ② 3~12개월 데이터는 S3에 보관 + Redshift Spectrum → 연 1회 분석 가능 (S3 스캔 비용만 발생), ③ 12개월 이후 S3 수명주기 정책으로 Glacier Deep Archive 자동 이전 → 규정 준수 + 최저 보관 비용. Redshift UNLOAD → S3 → 수명주기 → Glacier Deep Archive 순서가 기술적으로도 정확합니다.
💡 B와 동일한 두 가지 오류입니다. Redshift UNLOAD는 S3 Glacier Instant Retrieval로 직접 언로드할 수 없습니다. 또한 Redshift Spectrum은 S3 Glacier Instant Retrieval 데이터에 접근·쿼리할 수 없습니다. Glacier 계열 스토리지는 Spectrum이 직접 쿼리하는 S3 표준 접근 방식을 지원하지 않습니다. 수명주기 정책으로 Glacier Deep Archive 이전하는 마지막 단계는 올바르지만, 앞 단계가 잘못되었습니다.

정답: C — 3단계 수명주기 아키텍처

이 문제의 핵심 함정은 두 가지입니다. ① Redshift UNLOAD는 Glacier로 직접 언로드 불가 (S3 Standard → 수명주기 이전), ② Redshift Spectrum은 Glacier 계열 데이터 접근 불가 (S3 Standard만 가능). 정답 C는 이 두 제약을 모두 우회하면서 비용을 최소화합니다.

# 정답 C — 3단계 데이터 수명주기 [0~3개월] 데이터 수집 → Amazon Redshift (상시 분석) ↓ (3개월 초과 시 자동화 프로세스) [3~12개월] Redshift UNLOAD → Amazon S3 Standard ├─ Redshift에서 삭제 (비용 절감) └─ Redshift Spectrum으로 연간 분석 ✅ ↓ (S3 수명주기 정책, 12개월 후) [12개월+] S3 Glacier Deep Archive (규정 준수 보관) └─ 더 이상 접근 없음, 최저 스토리지 비용 # 핵심 제약 사항 UNLOAD → Glacier 직접 ❌ (S3 → 수명주기 이전만 가능) Spectrum → Glacier 쿼리 ❌ (S3 Standard 계열만 가능)

📊 선택지 비교 요약

선택지 Redshift 데이터 UNLOAD 방식 연간 분석 장기 보관 비용 효율
A. 12개월 유지 12개월치 S3 → Glacier ✅ Redshift 직접 Deep Archive ✅ 낭비 많음
B. Glacier 직접 3개월치 Glacier 직접 ❌ Spectrum 불가 ❌ Deep Archive ✅ 기술적 불가
C. 3단계 수명주기 ⭐ 3개월치 S3 → 수명주기 ✅ Spectrum ✅ Deep Archive ✅ 최고
D. Instant 직접 3개월치 Glacier 직접 ❌ Spectrum 불가 ❌ Deep Archive ✅ 기술적 불가
#AWS_DEA-C01 #AWS데이터엔지니어 #AmazonRedshift #RedshiftSpectrum #S3GlacierDeepArchive #S3수명주기정책 #데이터수명주기 #비용최적화 #데이터레이크 #규정준수 #S3GlacierInstant #AWS자격증
반응형