본문 바로가기

자격증

[AWS DEA] 문제로 공부하기 20 - OpenSearch AWS DEA-C01데이터 엔지니어검색 · OpenSearch메타데이터 인덱싱 S3 스캔 문서 메타데이터 검색 최적화 — OpenSearch가 정답인 이유 AWS DEA-C01 시험에 자주 나오는 검색 성능 최적화 문제입니다. S3에 저장된 수십만 개의 스캔 문서에서 ML로 추출한 메타데이터를 지원자 이름·날짜·텍스트로 빠르게 검색해야 할 때, OpenSearch / Athena / Redshift / EMR Presto 중 어떤 방식이 성능에 가장 최적화되어 있는지 도식과 함께 비교 정리합니다. 📋 문제 한 회사에서는 수십만 개의 스캔한 문서를 Amazon S3에 이미지로 저장한다. 이 문서에는 타자로 입력된 입사 지.. 더보기
[AWS DEA] Domain 1 데이터 변환 및 처리 완전 정리 AWS DEA-C01 Domain 1 · Task 2 데이터 변환 및 처리 OLTP · OLAP · EMR · Glue Spark · Kinesis · Redshift JDBC · ODBC · API Gateway AWS Skill Builder AWS DEA-C01 Domain 1 Task 2 — 데이터 변환 및 처리(Transform and Process Data) 완전 정리 AWS Skill Builder 공식 강의 기반. 데이터 엔지니어링 수명 주기의 변환(Transformation) 단계를 중심으로 OLTP vs OLAP, 데이터 모델링, 배치·스트리밍 변환, Amazon EMR Spar.. 더보기
[AWS DEA] Domain 1 데이터 수집(Data Ingestion) 완전 정리 AWS DEA-C01 Domain 1 데이터 수집 수행 Kinesis · Glue · MSK 배치 · 스트리밍 · 5V AWS Skill Builder AWS DEA-C01 Domain 1 — 데이터 수집 수행(Perform Data Ingestion) 완전 정리 AWS Skill Builder 공식 강의 기반. 데이터 엔지니어링 수명 주기의 수집(Ingestion) 단계를 중심으로 배치 vs 스트리밍, 푸시 vs 풀, 데이터 5V, 멱등성, 재처리 설계, Kinesis 핫 샤드 해결, Redshift COPY 최적화, 스테이트풀 vs 스테이트리스와 AWS 수집 서비스 전체를 도식·비교표로 완전 .. 더보기
[AWS DEA] Data Engineering Fundamentals (with AWS Toolkit) AWS Skill Builder · DEA-C01 기초Data EngineeringFundamentals데이터 엔지니어의 정의, 수명 주기, 책임 영역, 방법론, AWS 도구 키트를 한 장으로 정리Data Lifecycle ETL / ELT Data Pipeline AWS Toolkit DEA-C01 기초01 · 핵심 정의👷Data Engineer데이터 엔지니어데이터를 획득(Acquire)하고, 저장(Store)하고, 데이터 과학자·분석가 등이 사용할 수 있도록 준비(Prepare)하는 사람⚙️Data Engineering데이터 엔지니어링원시 데이터를 수집하여 분석·ML에 사용할 고품질의 일관된 데이터를 생성하는 프로세스 및 시스템을 개발·구현·유지 관리하는 것02 · 목표🎯신뢰할 수 있는 데이터셋 .. 더보기
[AWS DEA] 문제로 공부하기 19 - AppFlow AWS DEA-C01Amazon AppFlowAmazon RedshiftSaaS 데이터 통합최소 운영 오버헤드 SaaS → Redshift 지속 데이터 전송 — Amazon AppFlow가 정답인 이유 AWS DEA-C01 시험에 자주 나오는 SaaS 데이터 통합 문제입니다. SaaS 애플리케이션 데이터를 Amazon Redshift로 코드 없이 지속적으로 전송하는 솔루션으로 Amazon AppFlow 플로가 정답인 이유를 EventBridge(중개 서비스 필요), Lambda UDF(지속 전송 불가), MWAA(추가 관리 필요)와 비교하여 도식으로 정리합니다. 📋 문제 회사가 Amazon Redshift 데이터 웨어하우스를 운영하며, .. 더보기
[AWS DEA] 문제로 공부하기 18 - S3-IA + Glacier Flexible Retrieval + 삭제 AWS DEA-C01S3 수명주기Glacier Flexible비용 최적화데이터 보존 정책 S3 데이터 수명주기 3단계 — S3-IA + Glacier Flexible Retrieval + 삭제 조합이 정답인 이유 AWS DEA-C01 시험에 자주 나오는 S3 수명주기 비용 최적화 문제입니다. 0~3년 온라인 + SQL 분석 가능, 3~10년 12시간 내 복구, 10년 후 삭제 요건을 S3 Infrequent Access → Glacier Flexible Retrieval → 삭제 3단계로 구성하는 이유와, Glacier Deep Archive(12시간 초과), Intelligent-Tiering(패턴 알려진 경우 비적합), RDS 스냅샷(Glacier .. 더보기
[AWS DEA] 문제로 공부하기 16 - Redshift SUPER 타입 + PartiQL AWS DEA-C01Amazon RedshiftSUPER 타입PartiQL중첩 JSON 쿼리 중첩 JSON + 기존 테이블 무결성 유지 — Redshift SUPER 타입 + PartiQL이 정답인 이유 AWS DEA-C01 시험에 자주 나오는 Redshift 데이터 타입 문제입니다. 중첩 JSON 데이터를 기존 Redshift 테이블 구조를 변경하지 않고 쿼리하려면 SUPER 데이터 타입으로 로드 후 PartiQL로 쿼리하는 방법이 최적입니다. Redshift Spectrum(SQL 한계), Glue 평면화(스키마 변경), Glue Studio 노트북(고가용성 부재)이 탈락하는 이유를 비교 정리합니다. 📋 문제 한 ISP에서는 최근 고.. 더보기
[AWS DEA] 문제로 공부하기 15 - IAM 서비스 역할(Role) AWS DEA-C01AWS GlueIAM 서비스 역할IAM 정책ETL 파이프라인 AWS Glue ETL에 S3 권한 부여 — IAM 서비스 역할(Role)이 정답인 이유 AWS DEA-C01 시험에 자주 나오는 IAM 권한 부여 패턴 문제입니다. AWS 서비스(Glue)에 다른 AWS 리소스(S3) 접근 권한을 부여할 때는 IAM 사용자·액세스 키가 아닌 IAM 서비스 역할(Service Role)을 사용해야 합니다. 리소스 정책과 IAM 역할의 차이, 정책을 직접 연결할 수 없는 이유도 함께 정리합니다. 📋 문제 데이터 엔지니어가 AWS Glue ETL 파이프라인을 새 계정에 배포하고 있다. 파이프라인은 소스 S3 버킷에서 원.. 더보기