실시간 로그 수집 → Parquet 변환 → S3 — Firehose + Lambda가 정답인 이유
AWS DEA-C01 시험에 자주 나오는 스트리밍 ETL 문제입니다. 여러 애플리케이션의 로그를 중앙 집중식으로 수집하면서 Apache Parquet으로 변환해 S3에 거의 실시간 전달해야 할 때, Firehose / Kinesis Data Streams / Glue ETL / EMR Hive 중 최소 운영 오버헤드로 요구사항을 충족하는 솔루션을 도식과 함께 비교 정리합니다.
📋 문제
전자 상거래 회사가 AWS에서 여러 애플리케이션을 실행한다.
이 회사는 중앙 집중식 스트리밍 로그 수집 솔루션을 설계하려고 한다.
솔루션은 로그 데이터를 Apache Parquet 형식으로 변환한 다음
Amazon S3에 로그 파일을 저장할 수 있어야 한다.
생성되는 로그 파일의 수는 하루 중에 계속 달라지며,
데이터 엔지니어는 로그 파일을 거의 실시간으로 전달하도록 지원하는 솔루션을 구성해야 한다.
다음 중 최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇인가?
✅ 핵심 요구사항 체크
-
중앙 집중식 스트리밍 로그 수집
여러 앱에서 발생하는 로그를 하나의 파이프라인으로 통합 → 스트리밍 수집 서비스 필요 -
Apache Parquet 형식으로 변환
원본 로그(JSON·텍스트)를 열 기반 Parquet으로 변환 → 데이터 레이크 분석 최적화 -
거의 실시간 전달 (Near Real-time)
로그 순환 주기에 의존하지 않고 수집 즉시 처리 · 전달 → 배치가 아닌 스트리밍 방식 -
최소 운영 오버헤드
서버 프로비저닝·관리 없이 자동 스케일링 → 완전관리형(Fully Managed) 서비스 선호
📐 아키텍처 비교
자동 스케일링
(인라인 처리)
실시간 ❌
Data Streams
오버헤드 ↑
🪶 솔루션별 운영 오버헤드 (낮을수록 좋음)
📝 선택지 해설
각 항목을 클릭하면 해설이 펼쳐집니다.
정답: B — Amazon Data Firehose + Lambda
Firehose는 완전관리형 스트리밍 파이프라인으로, 수집 → 변환 → 전달을 서버 없이 처리합니다. Lambda 변환 함수를 연결하면 Parquet 변환까지 인라인으로 처리되어 별도 ETL 인프라가 필요 없습니다. 트래픽 변동도 자동 스케일링으로 대응합니다.
📊 선택지 비교 요약
| 선택지 | 수집 방식 | Parquet 변환 | 실시간 전달 | 운영 오버헤드 |
|---|---|---|---|---|
| A. S3 + Glue ETL | 파일 업로드 | ✅ 가능 | ❌ 로그 순환 의존 | 보통 |
| B. Firehose + Lambda ⭐ | 스트리밍 | ✅ Lambda 인라인 | ✅ 거의 실시간 | 최저 (완전관리형) |
| C. Kinesis + EC2 | 스트리밍 | ✅ KCL 앱 개발 | ✅ 실시간 | 높음 (EC2 관리) |
| D. EMR + Hive | 배치 | ✅ HiveQL 개발 | ❌ 예약 배치 | 가장 높음 (클러스터) |
'Stack > AWS' 카테고리의 다른 글
| [AWS DEA] 시험 합격을 위한 완전 가이드1 (feat.Gemini Pro 3.1) (1) | 2026.03.11 |
|---|---|
| [AWS DEA] 문제로 공부하기 7 - 데이터 공유 + Redshift 서버리스 (0) | 2026.03.10 |
| [AWS DEA] 문제로 공부하기 5 - Lambda + EventBridge (0) | 2026.03.10 |
| [AWS DEA] AWS 아키텍처 플로우차트 (Architecture Flowchart) (0) | 2026.03.10 |
| [AWS DEA] 문제로 공부하기 4 - 노드 RAM 볼륨 (0) | 2026.03.09 |