최신 DP-203 Korean 무료덤프 - Microsoft Data Engineering on Microsoft Azure (DP-203 Korean Version)

Azure Synapse Analytics에 엔터프라이즈 데이터 웨어하우스가 있습니다.
데이터 웨어하우스를 모니터링하여 현재 워크로드를 수용하기 위해 더 높은 서비스 수준으로 확장해야 하는지 여부를 확인해야 합니다. 모니터링할 가장 좋은 메트릭은 무엇입니까?
하나 이상의 답변 선택이 목표를 달성할 수 있습니다. 가장 좋은 답을 선택하세요.

정답: D
세 개의 파이프라인과 Trigger 1, Trigger2 및 Tiigger3이라는 세 개의 트리거가 포함된 Azure Synapse Analytics 작업 영역이 있습니다.
트리거 3에는 다음과 같은 정의가 있습니다.

정답:

Explanation:
Azure Synapse Analytics 전용 SQL 풀이 있습니다.
장기 실행 쿼리에 대해 데이터베이스를 모니터링하고 리소스에서 대기 중인 쿼리를 식별해야 합니다. 각 요구 사항에 대해 어떤 동적 관리 보기를 사용해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
메모; 각 정답은 1점의 가치가 있습니다.
정답:

Explanation:
데이터 웨어하우스의 차원 테이블을 디자인하고 있습니다. 테이블은 시간이 지남에 따라 차원 특성 값을 추적하고 데이터가 변경될 때 새 행을 추가하여 데이터 기록을 보존합니다.
어떤 유형의 느린 변화 차원(SCD)을 사용해야 합니까?

정답: B
설명: (DumpTOP 회원만 볼 수 있음)
회사에는 Microsoft Azure에서 호스팅되는 실시간 데이터 분석 솔루션이 있습니다. 이 솔루션은 Azure Event Hub를 사용하여 데이터를 수집하고 Azure Stream Analytics 클라우드 작업을 사용하여 데이터를 분석합니다. 클라우드 작업은 120 SU(스트리밍 단위)를 사용하도록 구성됩니다.
Azure Stream Analytics 작업의 성능을 최적화해야 합니다.
어떤 두 가지 작업을 수행해야 합니까? 각 정답은 솔루션의 일부를 나타냅니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.

정답: A,D
설명: (DumpTOP 회원만 볼 수 있음)
다음 코드 세그먼트는 Azure Databricks 클러스터를 만드는 데 사용됩니다.

다음 각 진술에 대해 진술이 참이면 예를 선택하십시오. 그렇지 않으면 아니요를 선택합니다.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
정답:

Explanation:

Box 1: Yes
A cluster mode of 'High Concurrency' is selected, unlike all the others which are 'Standard'. This results in a worker type of Standard_DS13_v2.
Box 2: No
When you run a job on a new cluster, the job is treated as a data engineering (job) workload subject to the job workload pricing. When you run a job on an existing cluster, the job is treated as a data analytics (all-purpose) workload subject to all-purpose workload pricing.
Box 3: Yes
Delta Lake on Databricks allows you to configure Delta Lake based on your workload patterns.
Reference:
https://adatis.co.uk/databricks-cluster-sizing/
https://docs.microsoft.com/en-us/azure/databricks/jobs
https://docs.databricks.com/administration-guide/capacity-planning/cmbp.html
https://docs.databricks.com/delta/index.html
다음 그림에 표시된 논리 흐름을 갖춘 Azure Data Factory 파이프라인이 있습니다.

다음 각 문장에 대해 문장이 사실이라면 예를 선택하세요. 그렇지 않으면 아니요를 선택하세요.
참고사항: 선택한 항목 하나당 1점입니다.
정답:

Explanation:
참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문 중 일부입니다. 시리즈의 각 질문에는 명시된 목표를 충족할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 하나 이상의 올바른 솔루션이 있을 수 있지만 다른 질문 세트에는 올바른 솔루션이 없을 수 있습니다.
이 섹션의 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
계층 구조가 있는 Azure Databricks 작업 영역을 만들 계획입니다. 작업 영역에는 다음 세 가지 워크로드가 포함됩니다.
Python 및 SQL을 사용할 데이터 엔지니어를 위한 워크로드입니다.
Python, Scala 및 SOL을 사용하는 노트북을 실행할 작업에 대한 워크로드입니다.
데이터 과학자가 Scala 및 R에서 임시 분석을 수행하는 데 사용할 워크로드입니다.
회사의 엔터프라이즈 아키텍처 팀은 Databricks 환경에 대해 다음 표준을 식별합니다.
데이터 엔지니어는 클러스터를 공유해야 합니다.
작업 클러스터는 데이터 과학자와 데이터 엔지니어가 클러스터에 배포할 패키지 노트북을 제공하는 요청 프로세스를 사용하여 관리됩니다.
모든 데이터 과학자에게는 120분 동안 활동이 없으면 자동으로 종료되는 자체 클러스터가 할당되어야 합니다. 현재 세 명의 데이터 과학자가 있습니다.
워크로드에 대한 Databricks 클러스터를 만들어야 합니다.
솔루션: 각 데이터 과학자를 위한 표준 클러스터, 데이터 엔지니어를 위한 표준 클러스터 및 작업을 위한 높은 동시성 클러스터를 만듭니다.
이것이 목표를 달성합니까?

정답: A
설명: (DumpTOP 회원만 볼 수 있음)
동시성이 1로 설정된 pipeline1이라는 Azure Synapse Analytics 파이프라인이 있습니다.
파이프라인 1을 실행하려면 다음 그림과 같이 새 트리거를 만듭니다.

[그래픽]에 제시된 정보를 바탕으로 각 진술문을 완성하는 답변 선택지를 선택하려면 드롭다운 메뉴를 사용하세요.
참고사항: 정답 하나당 1점입니다.
정답:

Explanation:
인터넷에 연결된 원격 센서의 스트리밍 데이터를 시각화하는 실시간 대시보드 솔루션을 설계하고 있습니다. 스트리밍 데이터는 각 10초 간격의 평균 값을 표시하도록 집계되어야 합니다. 데이터는 대시보드에 표시된 후 삭제됩니다.
솔루션은 Azure Stream Analytics를 사용하며 다음 요구 사항을 충족해야 합니다.
Azure 이벤트 허브에서 대시보드까지 대기 시간을 최소화합니다.
필요한 스토리지를 최소화하십시오.
개발 노력을 최소화하십시오.
솔루션에 무엇을 포함해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
정답:

Explanation:

Reference:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-power-bi-dashboard
Azure Stream Analytics를 사용하여 스트리밍 소셜 미디어 데이터를 수집할 계획입니다. 데이터는 Azure Data Lake Storage의 파일에 저장되고 Azure Synapse Analytics에서 Azure Dataabricks 및 PolyBase를 사용하여 사용됩니다.
파일에 대한 Databricks 및 PolyBase의 쿼리에서 발생할 수 있는 오류를 최소화하려면 Stream Analytics 데이터 출력 형식을 권장해야 합니다. 솔루션은 타일을 빠르게 쿼리할 수 있고 데이터 유형 정보가 유지되도록 해야 합니다.
무엇을 추천해야 할까요?

정답: B
설명: (DumpTOP 회원만 볼 수 있음)
Azure Synapse Analytics 작업 영역을 디자인하고 있습니다.
유휴 상태의 모든 데이터에 대해 이중 암호화를 제공하는 솔루션을 권장해야 합니다.
권장 사항에 포함해야 하는 두 가지 구성 요소는 무엇입니까? 각 정답은 솔루션의 일부를 나타냅니다. 참고: 각 정답은 1점의 가치가 있습니다.

정답: B,E
설명: (DumpTOP 회원만 볼 수 있음)
Azure Event Hub에서 인스턴트 메시징 데이터를 수신하는 Azure Stream Analytics 솔루션을 설계하고 있습니다.
Stream Analytics 작업의 출력이 15초마다 표준 시간대별 메시지 수를 계산하는지 확인해야 합니다.
Stream Analytics 쿼리를 어떻게 완료해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
정답:

Explanation:

Box 1: timestamp by
Box 2: TUMBLINGWINDOW
Tumbling window functions are used to segment a data stream into distinct time segments and perform a function against them, such as the example below. The key differentiators of a Tumbling window are that they repeat, do not overlap, and an event cannot belong to more than one tumbling window.

Reference:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-window-functions
참고: 이 질문은 동일한 시나리오를 제시하는 일련의 질문 중 일부입니다. 시리즈의 각 질문에는 명시된 목표를 충족할 수 있는 고유한 솔루션이 포함되어 있습니다. 일부 질문 세트에는 하나 이상의 올바른 솔루션이 있을 수 있지만 다른 질문 세트에는 올바른 솔루션이 없을 수 있습니다.
이 시나리오에서 질문에 답한 후에는 해당 질문으로 돌아갈 수 없습니다. 결과적으로 이러한 질문은 검토 화면에 나타나지 않습니다.
100GB의 파일이 포함된 Azure Storage 계정이 있습니다. 파일에는 텍스트와 숫자 값이 포함되어 있습니다. 행의 75%에는 평균 길이가 1.1MB인 설명 데이터가 포함되어 있습니다.
스토리지 계정에서 Azure Synapse Analytics의 엔터프라이즈 데이터 웨어하우스로 데이터를 복사할 계획입니다.
데이터가 빠르게 복사되도록 파일을 준비해야 합니다.
해결 방법: 파일을 구분된 압축된 텍스트 파일로 변환합니다.
이것이 목표를 달성합니까?

정답: B
설명: (DumpTOP 회원만 볼 수 있음)
2020년 상반기의 트랜잭션에 대한 팩트 테이블을 포함할 Azure Synapse Analytics 전용 SQL 풀을 빌드하고 있습니다.
테이블이 다음 요구 사항을 충족하는지 확인해야 합니다.
10년 이상 된 데이터를 삭제하기 위한 처리 시간 최소화 연간 누계 값을 사용하는 쿼리에 대한 I/O 최소화 Transact-SQL 문을 어떻게 완성해야 합니까? 대답하려면 대답 영역에서 적절한 옵션을 선택하십시오.
참고: 각 올바른 선택은 1점의 가치가 있습니다.
정답:

Explanation:

Box 1: PARTITION
RANGE RIGHT FOR VALUES is used with PARTITION.
Part 2: [TransactionDateID]
Partition on the date column.
Example: Creating a RANGE RIGHT partition function on a datetime column The following partition function partitions a table or index into 12 partitions, one for each month of a year's worth of values in a datetime column.
CREATE PARTITION FUNCTION [myDateRangePF1] (datetime)
AS RANGE RIGHT FOR VALUES ('20030201', '20030301', '20030401',
'20030501', '20030601', '20030701', '20030801',
'20030901', '20031001', '20031101', '20031201');
Reference:
https://docs.microsoft.com/en-us/sql/t-sql/statements/create-partition-function-transact-sql
Azure IoT Hub의 데이터를 처리하고 복잡한 변환을 수행하는 C# 애플리케이션이 있습니다.
애플리케이션을 실시간 솔루션으로 교체해야 합니다. 솔루션은 기존 애플리케이션에서 가능한 한 많은 코드를 재사용해야 합니다.

정답: D
설명: (DumpTOP 회원만 볼 수 있음)
폴더가 포함된 Azure Blob 저장소 계정이 있습니다. 폴더에는 120,000개의 파일이 있습니다. 각 파일에는 62개의 열이 있습니다.
매일 1,500개의 새 파일이 폴더에 추가됩니다.
각각의 새 파일에서 Azure Synapse Analytics 작업 영역으로 5개의 데이터 열을 증분식으로 로드할 계획입니다.
증분 로드를 수행하는 데 걸리는 시간을 최소화해야 합니다.
파일과 형식을 저장하기 위해 무엇을 사용해야 합니까?
정답:

Explanation:
Box 1 = timeslice partitioning in the foldersThis means that you should organize your files into folders based on a time attribute, such as year, month, day, or hour. For example, you can have a folder structure like /yyyy
/mm/dd/file.csv. This way, you can easily identify and load only the new files that are added each day by using a time filter in your Azure Synapse pipeline12. Timeslice partitioning can also improve the performance of data loading and querying by reducing the number of files that need to be scanned Box = 2 Apache Parquet This is because Parquet is a columnar file format that can efficiently store and compress data with many columns. Parquet files can also be partitioned by a time attribute, which can improve the performance of incremental loading and querying by reducing the number of files that need to be scanned123. Parquet files are supported by both dedicated SQL pool and serverless SQL pool in Azure Synapse Analytics2.
Azure Databricks 작업 영역이 포함된 Azure 구독이 있습니다. 작업 영역에는 Notebook1이라는 노트북이 포함되어 있습니다. Notebook1에서 다음 열을 포함하는 df_sales라는 Apache Spark DataFrame을 생성합니다.
* 고객
* 영업사원
* 지역
* 양
HQ라는 지역에 대해 금액별로 최고 실적을 내는 영업 사원 3명을 식별해야 합니다.
쿼리를 어떻게 완료해야 합니까? 응답하려면 적절한 값을 올바른 대상으로 드래그하십시오. 각 값은 한 번, 두 번 이상 사용되거나 전혀 사용되지 않을 수 있습니다. 콘텐츠를 보려면 창 사이의 분할 막대를 끌거나 스크롤해야 할 수 있습니다.
정답:

Explanation:
매시간 트리거되는 Azure Data Factory 파이프라인이 있습니다.
파이프라인은 지난 7일 동안 100% 성공했습니다.
파이프라인 실행이 실패하고 15분 간격으로 발생하는 두 번의 재시도도 실패합니다. 세 번째 실패는 다음 오류를 반환합니다.

오류의 가능한 원인은 무엇입니까?

정답: C

우리와 연락하기

문의할 점이 있으시면 메일을 보내오세요. 12시간이내에 답장드리도록 하고 있습니다.

근무시간: ( UTC+9 ) 9:00-24:00
월요일~토요일

서포트: 바로 연락하기