본문 바로가기

Stack/AWS

[AWS DEA] 문제로 공부하기 18 - S3-IA + Glacier Flexible Retrieval + 삭제

반응형
AWS DEA-C01 S3 데이터 수명주기 정책 | S3-IA + Glacier Flexible Retrieval 완전 정리

S3 데이터 수명주기 3단계 — S3-IA + Glacier Flexible Retrieval + 삭제 조합이 정답인 이유

AWS DEA-C01 시험에 자주 나오는 S3 수명주기 비용 최적화 문제입니다. 0~3년 온라인 + SQL 분석 가능, 3~10년 12시간 내 복구, 10년 후 삭제 요건을 S3 Infrequent Access → Glacier Flexible Retrieval → 삭제 3단계로 구성하는 이유와, Glacier Deep Archive(12시간 초과), Intelligent-Tiering(패턴 알려진 경우 비적합), RDS 스냅샷(Glacier 직접 이전 불가)이 탈락하는 이유를 정리합니다.

📋 문제

회사에서 Amazon S3 버킷을 활용하여 데이터를 저장한다. 새로운 데이터 수명 주기 및 보존 정책은 다음과 같다.

새로 생성된 데이터: 온라인에서 사용 가능, SQL 분석 가능
3년 이후 데이터: 안전 보관 + 12시간 이내 복구 가능 (규정 준수 평가용)
10년 이상 데이터: 안전하게 삭제

데이터 엔지니어는 이 정책에 따라 비용 효율적으로 저장할 수 있는 솔루션을 구성해야 한다.

📐 정답 — 3단계 S3 수명주기 아키텍처

0 ~ 3년
🌐
S3 Infrequent
Access (IA)
온라인 접근
비주기적 분석
+ Amazon Athena
3 ~ 10년
🧊
S3 Glacier
Flexible Retrieval
아카이브 보관
≤ 12시간 복구
규정 준수 ✅
10년 이후
🗑️
수명주기 삭제
규칙 실행
영구 삭제
스토리지 비용 0

🧊 Glacier 스토리지 클래스별 검색 시간 — 12시간 요건이 핵심

Glacier
Instant Retrieval
  • 검색 시간: 밀리초(ms)
  • 분기별 접근에 최적
  • Flexible보다 비쌈
✅ 12시간 요건 충족 (과분)
🧊
Glacier
Flexible Retrieval ⭐
  • 표준 검색: 3~5시간
  • 대량 검색: 5~12시간
  • 12시간 이내 충족
  • Instant보다 저렴
✅ 12시간 요건 충족 + 비용 최적
🐢
Glacier
Deep Archive
  • 표준 검색: 최대 12시간
  • 대량 검색: 최대 48시간
  • 12시간 초과 가능성
  • 가장 저렴하나 느림
❌ 12시간 초과 위험
⚠️ 핵심 함정: Glacier Deep Archive는 최대 12시간이 아니라 최대 48시간까지 걸릴 수 있습니다. "12시간 이내" 조건에는 Glacier Flexible Retrieval만 안전하게 충족합니다.

📝 선택지 해설

각 항목을 클릭하면 해설이 펼쳐집니다.

💡 정답. 세 가지 요건을 모두 비용 효율적으로 충족합니다. ① S3 Infrequent Access: 온라인으로 즉시 접근 가능하며 S3 Standard보다 저렴합니다. 비주기적 쿼리 패턴(가끔 SQL 분석)에 최적화된 클래스입니다. ② Amazon Athena: S3에 저장된 데이터를 이동 없이 직접 SQL로 쿼리합니다. 서버리스라 추가 인프라 없이 사용 가능합니다. ③ Glacier Flexible Retrieval: 표준 검색 3~5시간, 대량 검색 최대 12시간으로 "12시간 이내" 요건을 안전하게 충족합니다. ④ 10년 후 수명주기 삭제 규칙으로 자동 삭제합니다.
💡 두 가지 이유로 탈락합니다. 첫째, S3 Intelligent-Tiering은 액세스 패턴이 불규칙하거나 알 수 없을 때 적합합니다. 이 문제는 0~3년 온라인, 3~10년 아카이브라는 명확한 패턴이 이미 알려져 있어 수명주기 정책으로 직접 제어하는 것이 더 비용 효율적입니다. Intelligent-Tiering은 처음 3년 내에도 Archive Access 등급으로 자동 이전될 수 있어 "온라인 상시 접근 가능" 요건을 보장하지 못합니다. 둘째, Deep Archive Access 등급은 검색에 최대 48시간이 걸릴 수 있어 12시간 요건 위반 가능성이 있습니다.
💡 두 가지 문제가 있습니다. 첫째, Amazon Redshift는 상시 실행 클러스터 비용이 발생합니다. 문제 조건에 따르면 데이터는 "가끔 SQL 분석"하는 비주기적 용도이므로 Redshift처럼 비용이 높은 상시 실행 DW를 사용하는 것은 비용 비효율적입니다. 서버리스 쿼리 서비스인 Athena가 훨씬 적합합니다. 둘째, S3 Glacier Deep Archive는 최대 48시간의 검색 시간이 걸릴 수 있어 "12시간 이내" 복구 요건을 충족하지 못할 수 있습니다.
💡 두 가지 치명적 문제가 있습니다. 첫째, Amazon RDS는 항상 실행 중인 데이터베이스 인스턴스 비용이 발생합니다. 가끔씩 SQL 분석을 수행하는 용도에는 훨씬 비용이 높아 비효율적입니다. 둘째, RDS 스냅샷은 S3 Glacier로 직접 마이그레이션할 수 없습니다. RDS 자동 백업 스냅샷은 AWS 관리형 S3 스토리지에 저장되며, 사용자가 임의로 Glacier 등급으로 전환하는 수명주기 정책을 적용할 수 없습니다. 이는 기술적으로 불가능한 구성입니다.

정답: A — S3 IA + Athena + Glacier Flexible + 삭제 수명주기

이 문제의 핵심 구분 포인트는 두 가지입니다. ① 12시간 이내 복구: Glacier Flexible(3~12시간) ✅ vs Deep Archive(최대 48시간) ❌. ② 비용 효율: 가끔 SQL 분석 → Athena(서버리스) ✅ vs Redshift·RDS(상시 실행 비용) ❌.

# 정답 A — 3단계 S3 수명주기 구성 [0 ~ 3년] S3 Infrequent Access (IA) ├─ 온라인 즉시 접근 가능 ├─ SQL 분석: Amazon Athena (서버리스, S3 직접 쿼리) └─ S3 Standard보다 저렴 (비주기적 접근) [수명주기 규칙 #1] 생성 후 3년 → Glacier Flexible Retrieval 이전 ├─ 표준 검색: 3~5시간 ├─ 대량 검색: 5~12시간 └─ "12시간 이내" 요건 ✅ 충족 [수명주기 규칙 #2] 생성 후 10년 → 영구 삭제 # 탈락 이유 핵심 정리 B. Intelligent-Tiering → 패턴 알려짐 + Deep Archive 12시간 초과 C. Redshift + Deep Archive → 비용 낭비 + Deep Archive 12시간 초과 D. RDS 스냅샷 → 비용 낭비 + Glacier 직접 이전 불가 # Glacier 검색 시간 암기 Instant Retrieval : 밀리초 (ms) Flexible Retrieval : 3~12시간 ← 12시간 요건에 안전 Deep Archive : 최대 48시간 ← 12시간 요건 위반 가능

📊 선택지 비교 요약

선택지 신규 데이터 저장 SQL 분석 12시간 복구 비용 효율 결론
A ⭐ S3 IA ✅ Athena ✅ Glacier Flexible ✅ 최적 정답
B Intelligent-Tiering ✅ Athena ❌ Deep Archive 초과 ⚠️ 패턴 알려짐 탈락
C Redshift ✅ Redshift SQL ❌ Deep Archive 초과 ❌ 상시 비용 탈락
D RDS ✅ RDS SQL Flexible 사용 ❌ 상시 비용 + Glacier 이전 불가 탈락
#AWS_DEA-C01 #S3수명주기 #S3_InfrequentAccess #GlacierFlexibleRetrieval #GlacierDeepArchive #S3_IntelligentTiering #AmazonAthena #데이터보존정책 #규정준수 #비용최적화 #AWS자격증 #AWS데이터엔지니어
반응형