최신 AWS Certified Data Engineer Data-Engineer-Associate-KR 무료샘플문제:
1. 한 회사는 Amazon Athena를 사용하여 CTAS(Create Table As Select)를 사용하여 추출, 변환 및 로드(ETL) 작업에 대한 SQL 쿼리를 실행합니다. 회사는 분석을 생성하기 위해 SQL 대신 Apache Spark를 사용해야 합니다.
회사가 Spark를 사용하여 Athena에 액세스할 수 있는 기능을 제공하는 솔루션은 무엇입니까?
A) Athena 데이터 소스
B) Athena 쿼리 설정
C) Athena 작업 그룹
D) Athena 쿼리 편집기
2. 한 회사에서는 다양한 AWS 및 타사 데이터 저장소를 사용합니다. 이 회사는 모든 데이터를 중앙 데이터 웨어하우스로 통합하여 분석을 수행하고자 합니다. 사용자는 분석 쿼리에 대한 빠른 응답 시간이 필요합니다.
이 회사는 Amazon QuickSight를 직접 쿼리 모드로 사용하여 데이터를 시각화합니다. 사용자는 일반적으로 매일 몇 시간 동안 쿼리를 실행하며 예측할 수 없는 급증이 발생합니다.
어떤 솔루션이 운영 비용을 최소화하면서 이러한 요구 사항을 충족할 수 있을까요?
A) Amazon Redshift Serverless를 사용하여 모든 데이터를 Amazon Redshift 관리형 스토리지(RMS)에 로드합니다.
B) Amazon Aurora PostgreSQL을 사용하여 모든 데이터를 Aurora에 로드합니다.
C) Amazon Redshift 프로비저닝 클러스터를 사용하여 모든 데이터를 Amazon Redshift 관리형 스토리지(RMS)에 로드합니다.
D) Amazon Athena를 사용하여 모든 데이터를 Apache Parquet 형식으로 Amazon S3에 로드합니다.
3. 소매업체는 Amazon Redshift 데이터웨어하우스와 Amazon S3 버킷을 사용합니다. 이 회사는 매일 소매 주문 데이터를 S3 버킷으로 수집합니다.
이 회사는 모든 주문 데이터를 S3 버킷 내의 단일 경로에 저장합니다. 데이터에는 100개가 넘는 열이 있습니다.
이 회사는 매일 CSV 형식으로 30개 이상의 파일을 생성하는 타사 애플리케이션에서 주문 데이터를 수집합니다. 각 CSV 파일의 크기는 50~70MB입니다.
이 회사는 Amazon Redshift Spectrum을 사용하여 열 집합을 선택하는 쿼리를 실행합니다. 사용자는 일일 주문에 따라 메트릭을 집계합니다. 최근 사용자들은 쿼리 성능이 저하되었다고 보고했습니다.
데이터 엔지니어는 쿼리에 대한 성능 문제를 해결해야 합니다.
어떤 단계 조합이 최소한의 개발 노력으로 이 요구 사항을 충족할 수 있을까요? (2개를 선택하세요.)
A) 주문 날짜를 기준으로 S3 버킷의 주문 데이터를 분할합니다.
B) 타사 애플리케이션을 구성하여 JSON 형식으로 파일을 생성합니다.
C) 타사 응용 프로그램을 구성하여 파일을 열 형식으로 생성합니다.
D) JSON 데이터를 SUPER 유형 열의 Amazon Redshift 테이블에 로드합니다.
E) 여러 개의 일일 CSV 파일을 각 요일의 파일 하나로 변환하는 AWS Glue ETL 작업을 개발합니다.
4. 한 회사는 SAP HANA, Microsoft SQL Server, MongoDB, Apache Kafka 및 Amazon DynamoDB와 같은 데이터 소스에서 매일 약 1TB의 데이터를 추출합니다. 일부 데이터 소스에는 정의되지 않은 데이터 스키마 또는 변경되는 데이터 스키마가 있습니다.
데이터 엔지니어는 이러한 데이터 소스에 대한 스키마를 감지할 수 있는 솔루션을 구현해야 합니다. 솔루션은 데이터를 추출, 변환하고 Amazon S3 버킷에 로드해야 합니다. 회사는 데이터 생성 후 15분 이내에 S3 버킷에 데이터를 로드하는 서비스 수준 계약(SLA)을 보유하고 있습니다.
최소한의 운영 오버헤드로 이러한 요구 사항을 충족하는 솔루션은 무엇입니까?
A) AWS Lambda에서 PvSpark proqram을 생성하여 데이터를 추출, 변환하고 S3 버킷에 로드합니다.
B) AWS Glue를 사용하여 스키마를 감지하고 데이터를 추출, 변환 및 S3 버킷에 로드합니다.
Apache Spark에서 파이프라인을 생성합니다.
C) Amazon Redshift에서 저장 프로시저를 생성하여 스키마를 감지하고 데이터를 추출, 변환하고 Redshift Spectrum 테이블에 로드합니다. Amazon S3에서 테이블에 액세스합니다.
D) Amazon EMR을 사용하여 스키마를 감지하고 데이터를 추출, 변환하고 S3 버킷에 로드합니다.
Apache Spark에서 파이프라인을 생성합니다.
5. 회사는 Amazon QuickSight 대시보드를 사용하여 회사 애플리케이션 중 하나의 사용량을 모니터링합니다.
회사는 AWS Glue 작업을 사용하여 대시보드용 데이터를 처리합니다. 회사는 단일 Amazon S3 버킷에 데이터를 저장합니다. 회사는 매일 새로운 데이터를 추가합니다.
데이터 엔지니어는 시간이 지남에 따라 대시보드 쿼리가 느려지는 것을 발견했습니다. 데이터 엔지니어는 쿼리 속도 저하의 근본 원인이 장기 실행 AWS Glue 작업이라고 판단합니다.
AWS Glue 작업의 성능을 향상시키기 위해 데이터 엔지니어는 어떤 조치를 취해야 합니까? (2개를 선택하세요.)
A) AWS Glue 스키마를 DynamicFrame 스키마 클래스로 변환합니다.
B) 작업이 매일 절반씩 실행되도록 AWS Glue 작업 예약 빈도를 조정합니다.
C) 모든 S3 기능에 대한 액세스 권한을 부여하도록 AWS Glue에 대한 액세스 권한을 부여하는 1AM 역할을 수정합니다.
D) S3 버킷에 있는 데이터를 분할합니다. 데이터를 연도, 월, 일별로 정리합니다.
E) 작업자 유형을 확장하여 AWS Glue 인스턴스 크기를 늘립니다.
질문과 대답:
질문 # 1 정답: A | 질문 # 2 정답: A | 질문 # 3 정답: A,C | 질문 # 4 정답: B | 질문 # 5 정답: D,E |