[문제7]
회사에는 Amazon S3 데이터 레이크가 있습니다. 회사에는 데이터 레이크의 데이터를 변환하고 매일 데이터 웨어하우스에 데이터를 로드하는 솔루션이 필요합니다. 데이터 웨어하우스에는 MPP(대규모 병렬 처리) 기능이 있어야 합니다.
그런 다음 데이터 분석가는 데이터에 대해 SQL 명령을 사용하여 기계 학습(ML) 모델을 생성하고 훈련해야 합니다. 솔루션은 가능한 경우 서버리스 AWS 서비스를 사용해야 합니다. 어떤 솔루션이 이러한 요구 사항을 충족합니까?
A. 매일 Amazon EMR 작업을 실행하여 데이터를 변환하고 Amazon Redshift에 데이터를 로드합니다. Amazon Redshift ML을 사용하여 ML 모델을 생성하고 교육합니다.
B. 매일 Amazon EMR 작업을 실행하여 데이터를 변환하고 Amazon Aurora Serverless에 데이터를 로드합니다. Amazon Aurora ML을 사용하여 ML 모델 생성 및 교육
C. 매일 AWS Glue 작업을 실행하여 데이터를 변환하고 Amazon Redshift Serverless에 데이터를 로드합니다. Amazon Redshift ML을 사용하여 ML 모델을 생성하고 트램합니다.
D. 매일 AWS Glue 작업을 실행하여 데이터를 변환하고 Amazon Athena 테이블에 데이터를 로드합니다. Amazon Athena ML을 사용하여 ML 모델 생성 및 훈련
[요구사항 분석]
1) S3 데이터 레이크의 데이터를 변환하고, 데이터 웨어하우스에 로드해야 함.
2) 데이터 웨어하우스는 MPP(대규모 병렬 처리) 기능이 필요.
3) 데이터 분석가는 SQL 명령어로 ML 모델을 생성하고 훈련해야 함.
4) 가능한 서버리스 솔루션을 사용해야 함.
[각 보기 분석]
A. 매일 Amazon EMR 작업을 실행하여 데이터를 변환하고 Amazon Redshift에 데이터를 로드합니다. Amazon Redshift ML을 사용하여 ML 모델을 생성하고 교육합니다.
장점: Amazon EMR은 데이터를 변환하는 데 강력하며, Amazon Redshift는 MPP(대규모 병렬 처리) 기능을 제공하고 Redshift ML을 통해 SQL 기반 ML 작업을 지원합니다.
단점: Amazon EMR은 서버리스 솔루션이 아니며, 관리 오버헤드가 발생할 수 있습니다.
B. 매일 Amazon EMR 작업을 실행하여 데이터를 변환하고 Amazon Aurora Serverless에 데이터를 로드합니다. Amazon Aurora ML을 사용하여 ML 모델을 생성하고 교육합니다.
장점: Amazon Aurora Serverless는 서버리스 DB 솔루션으로서 효율적입니다.
단점: Amazon Aurora는 MPP 기능이 없으며, 요구사항에 부합하지 않습니다. 또한 Aurora ML은 SQL 기반이 아니며, SQL로 ML을 생성하고 훈련할 수 없습니다.
C. 매일 AWS Glue 작업을 실행하여 데이터를 변환하고 Amazon Redshift Serverless에 데이터를 로드합니다. Amazon Redshift ML을 사용하여 ML 모델을 생성하고 트레이닝합니다.
장점: AWS Glue는 서버리스 데이터 변환 서비스이며, Amazon Redshift Serverless는 MPP 기능을 갖춘 서버리스 데이터 웨어하우스입니다. Redshift ML을 통해 SQL 기반 ML 모델을 생성하고 훈련할 수 있습니다.
단점: 서버리스 요구사항을 완전히 충족하며, 운영 오버헤드가 적습니다.
D. 매일 AWS Glue 작업을 실행하여 데이터를 변환하고 Amazon Athena 테이블에 데이터를 로드합니다. Amazon Athena ML을 사용하여 ML 모델 생성 및 훈련
장점: AWS Glue는 서버리스이며, Amazon Athena는 SQL 쿼리 기반의 서버리스 분석 서비스입니다.
단점: Amazon Athena는 MPP 기능이 없습니다. 또한, Athena ML이라는 기능은 존재하지 않으므로, ML 모델 생성 및 훈련 요구사항을 충족하지 않습니다.
[정답 및 최종 판단]
정답은 C입니다. 이 솔루션은 **서버리스, MPP 기능, SQL 기반 ML 생성 및 훈련이라는 모든 요구 사항을 충족합니다.
[개념 및 키워드]
1) S3 데이터 레이크: 대규모 데이터 저장소로, 다양한 데이터 형식을 저장하고 분석할 수 있습니다.
2) AWS Glue: 서버리스 데이터 변환 및 ETL 서비스.
3) Amazon Redshift Serverless: MPP 기능을 제공하는 서버리스 데이터 웨어하우스.
4) Redshift ML: SQL 기반으로 ML 모델을 생성하고 훈련할 수 있는 기능.
5) MPP(대규모 병렬 처리): 다수의 프로세서를 통해 대규모 데이터 세트를 병렬로 처리하는 능력.
[태스크 설명]
태스크 5.1: 데이터 처리 및 분석 최적화
이 태스크는 대규모 데이터를 효율적으로 처리하고 분석하기 위한 솔루션 설계를 다룹니다. AWS Glue와 Amazon Redshift Serverless를 활용한 데이터 처리와 분석은 MPP 요구 사항과 함께 서버리스 아키텍처의 장점을 잘 반영합니다.
[주요 서비스]
다음은 문제에서 언급된 AWS 서비스들에 대한 간단한 소개와 주요 특징입니다:
1. Amazon S3 (Simple Storage Service)
- 소개: Amazon S3는 인터넷 스토리지 서비스로, 대규모 데이터를 손쉽게 저장하고 관리할 수 있는 객체 스토리지 서비스입니다.
- 특징:
- 무제한 스토리지: 거의 무한한 용량을 제공.
- 데이터 내구성: 99.999999999%의 내구성을 보장.
- 유연한 액세스 관리: ACL, 버킷 정책 등 다양한 방식으로 액세스 제어 가능.
2. AWS Glue
- 소개: AWS Glue는 서버리스 데이터 통합 서비스로, 데이터를 추출(ETL), 변환 및 로드할 수 있습니다.
- 특징:
- 서버리스: 인프라 관리 없이 데이터를 처리 가능.
- ETL 기능: S3, RDS 등 다양한 데이터 소스에서 데이터를 가져와 변환 및 로드.
- 데이터 카탈로그: 메타데이터를 관리하고 데이터 소스와 쉽게 연결.
3. Amazon Redshift Serverless
- 소개: Amazon Redshift는 MPP(대규모 병렬 처리) 기능을 제공하는 데이터 웨어하우스 서비스이며, Serverless 버전은 자동으로 용량을 관리해주는 서비스입니다.
- 특징:
- 서버리스: 워크로드에 따라 자동으로 확장 및 축소.
- MPP: 여러 노드를 사용하여 데이터를 병렬 처리하여 고성능 제공.
- Redshift ML: SQL 기반으로 머신러닝 모델을 생성 및 훈련 가능.
4. Amazon Redshift ML
- 소개: Redshift ML은 Amazon Redshift에서 SQL을 사용하여 머신러닝(ML) 모델을 만들고 학습할 수 있는 기능입니다.
- 특징:
- SQL 기반 ML: SQL로 쉽게 머신러닝 모델을 구축.
- 통합: Redshift 데이터와 ML 기능을 원활하게 통합.
- Amazon SageMaker와 통합: SageMaker를 통해 모델을 훈련한 후 Redshift에서 사용 가능.
5. Amazon Athena
- 소개: Amazon Athena는 서버리스 쿼리 서비스로, S3에 저장된 데이터를 SQL로 직접 분석할 수 있습니다.
- 특징:
- 서버리스: 인프라 관리 없이 즉시 쿼리 실행 가능.
- SQL 쿼리: SQL을 사용하여 S3 데이터를 직접 분석.
- 비용 효율적: 쿼리한 데이터 양에 따라 요금 부과.
6. Amazon EMR (Elastic MapReduce)
- 소개: Amazon EMR은 빅데이터 처리를 위한 클라우드 서비스로, Apache Hadoop, Spark 등의 분산 컴퓨팅 프레임워크를 지원합니다.
- 특징:
- 빅데이터 처리: 대용량 데이터를 빠르고 비용 효율적으로 처리.
- 유연성: 다양한 빅데이터 도구 (Hadoop, Spark, Presto 등)와 호환.
- 확장성: 요구에 따라 쉽게 클러스터 확장 가능.
7. Amazon Aurora Serverless
- 소개: Amazon Aurora Serverless는 MySQL 및 PostgreSQL 호환 서버리스 관계형 데이터베이스입니다.
- 특징:
- 서버리스: 자동으로 확장되고 용량을 관리.
- 자동 확장: 사용량에 따라 자동으로 크기를 조절.
- 고성능: 기존의 MySQL 및 PostgreSQL 대비 뛰어난 성능 제공.
'스케쥴 > 시험' 카테고리의 다른 글
AWS SAA-C03 한국어 샘플 9번 (0) | 2024.10.20 |
---|---|
AWS SAA-C03 한국어 샘플 8번 (1) | 2024.10.19 |
AWS SAA-C03 한국어 샘플 6번 (0) | 2024.10.19 |
AWS SAA-C03 한국어 샘플 5번 (1) | 2024.10.19 |
AWS SAA-C03 한국어 샘플 4번 (0) | 2024.10.19 |