최신 DP-203日本語 무료덤프 - Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)
あなたは、ペタバイト規模の医用画像データを保存するアプリケーションを設計しています。データが最初に作成されると、最初の 1 週間はデータに頻繁にアクセスされます。 1 か月後、30 秒以内にデータにアクセスできるようにする必要がありますが、ファイルへのアクセスはまれになります。 1 年後、データにアクセスする頻度は低くなりますが、5 分以内にアクセスできるようにする必要があります。
データのストレージ戦略を選択する必要があります
a.ソリューションは、コストを最小限に抑える必要があります。
各時間枠でどのストレージ層を使用する必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。
注: 正しい選択ごとに 1 ポイントの価値があります。
データのストレージ戦略を選択する必要があります
a.ソリューションは、コストを最小限に抑える必要があります。
各時間枠でどのストレージ層を使用する必要がありますか?回答するには、回答エリアで適切なオプションを選択してください。
注: 正しい選択ごとに 1 ポイントの価値があります。
정답:
Explanation:
First week: Hot
Hot - Optimized for storing data that is accessed frequently.
After one month: Cool
Cool - Optimized for storing data that is infrequently accessed and stored for at least 30 days.
After one year: Cool
Azureデータブリックスを使用してPurchasesという名前のデータセットを開発する予定です。Purchasesには次の列が含まれます。
* 製品番号
* ItemPrice
* lineTotal
* 量
* StorelD
* 分
* 月
* 時間
* 年
* 日
StoreIDごとに異なる1時間ごとの増分ロードパイプラインをサポートするために、データを保存する必要があります。ソリューションはストレージコストを最小限に抑える必要があります。どのように乗り物を完成させる必要がありますか?答えるには、適切なオプションを選択してください。答えは次のとおりです。
注:正しい選択はそれぞれ1ポイントの価値があります。
* 製品番号
* ItemPrice
* lineTotal
* 量
* StorelD
* 分
* 月
* 時間
* 年
* 日
StoreIDごとに異なる1時間ごとの増分ロードパイプラインをサポートするために、データを保存する必要があります。ソリューションはストレージコストを最小限に抑える必要があります。どのように乗り物を完成させる必要がありますか?答えるには、適切なオプションを選択してください。答えは次のとおりです。
注:正しい選択はそれぞれ1ポイントの価値があります。
정답:
Explanation:
Box 1: partitionBy
We should overwrite at the partition level.
Example:
df.write.partitionBy("y","m","d")
mode(SaveMode.Append)
parquet("/data/hive/warehouse/db_name.db/" + tableName)
Box 2: ("StoreID", "Year", "Month", "Day", "Hour", "StoreID")
Box 3: parquet("/Purchases")
Reference:
https://intellipaat.com/community/11744/how-to-partition-and-write-dataframe-in-spark-without-deleting- partitions-with-no-new-data
注: この質問は、同じシナリオを提示する一連の質問の一部です。シリーズの各質問には、記載された目標を達成する可能性のある独自のソリューションが含まれています。一部の質問セットには複数の正解がある場合もあれば、正解がない場合もあります。
このシナリオで質問に答えた後は、その質問に戻ることはできません。その結果、これらの質問はレビュー画面に表示されません。
100 GB のファイルを含む Azure ストレージ アカウントがあります。ファイルにはテキストと数値が含まれています。行の 75% には、平均長が 1.1 MB の説明データが含まれています。
ストレージ アカウントから Azure Synapse Analytics のエンタープライズ データ ウェアハウスにデータをコピーする予定です。
データが迅速にコピーされるように、ファイルを準備する必要があります。
解決策: ファイルを圧縮された区切りテキスト ファイルに変換します。
これは目標を達成していますか?
このシナリオで質問に答えた後は、その質問に戻ることはできません。その結果、これらの質問はレビュー画面に表示されません。
100 GB のファイルを含む Azure ストレージ アカウントがあります。ファイルにはテキストと数値が含まれています。行の 75% には、平均長が 1.1 MB の説明データが含まれています。
ストレージ アカウントから Azure Synapse Analytics のエンタープライズ データ ウェアハウスにデータをコピーする予定です。
データが迅速にコピーされるように、ファイルを準備する必要があります。
解決策: ファイルを圧縮された区切りテキスト ファイルに変換します。
これは目標を達成していますか?
정답: A
설명: (DumpTOP 회원만 볼 수 있음)
オンプレミスのデータ ソースと Azure Synapse Analytics を統合する必要があります。ソリューションは、データ統合の要件を満たす必要があります。
どのタイプの統合ランタイムを使用する必要がありますか?
どのタイプの統合ランタイムを使用する必要がありますか?
정답: C
설명: (DumpTOP 회원만 볼 수 있음)
Azure Data Lake Storage Gen2 アカウントへのソース データの増分読み込みを実行する Azure Data Factory パイプラインがあります。
ロードされるデータは、ソース テーブルの LastUpdatedDate という名前の列によって識別されます。
パイプラインを 4 時間ごとに実行することを計画しています。
パイプラインの実行が次の要件を満たしていることを確認する必要があります。
同時実行性またはスロットル制限によりパイプラインの実行が失敗した場合に、実行を自動的に再試行します。
テーブル内の既存データのバックフィルをサポートします。
どのタイプのトリガーを使用する必要がありますか?
ロードされるデータは、ソース テーブルの LastUpdatedDate という名前の列によって識別されます。
パイプラインを 4 時間ごとに実行することを計画しています。
パイプラインの実行が次の要件を満たしていることを確認する必要があります。
同時実行性またはスロットル制限によりパイプラインの実行が失敗した場合に、実行を自動的に再試行します。
テーブル内の既存データのバックフィルをサポートします。
どのタイプのトリガーを使用する必要がありますか?
정답: C
설명: (DumpTOP 회원만 볼 수 있음)
次の表に示すリソースを含む Azure サブスクリプションがあります。
storage1 アカウントには、container1 という名前のコンテナーが含まれています。 Container1 コンテナには次のファイルが含まれています。
組み込みのサーバーレス SQL プールで、次のスクリプトを実行します。
次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。 注: 正しく選択するたびに 1 ポイントの価値があります。
storage1 アカウントには、container1 という名前のコンテナーが含まれています。 Container1 コンテナには次のファイルが含まれています。
組み込みのサーバーレス SQL プールで、次のスクリプトを実行します。
次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。 注: 正しく選択するたびに 1 ポイントの価値があります。
정답:
Explanation:
Azure イベント ハブからデータを読み取る Azure Stream Analytics ジョブがあります。
ジョブがデータの到着と同じくらい早くデータを処理するか、処理が追いつかないかを評価する必要があります。
どの指標を確認する必要がありますか?
ジョブがデータの到着と同じくらい早くデータを処理するか、処理が追いつかないかを評価する必要があります。
どの指標を確認する必要がありますか?
정답: B
Azure Stream Analytics を使用して、Azure Event Hubs から Twitter データを受信し、そのデータを Azure Blob ストレージ アカウントに出力します。過去 5 分間のツイート数を 5 分ごとに出力する必要があります。各ツイートは 1 回だけカウントする必要があります。
どのウィンドウ関数を使用すればよいですか?
どのウィンドウ関数を使用すればよいですか?
정답: B
Azure Databricks 上の Delta Lake のテーブルを使用する 2 つのソリューションを設計しています。
以下の実行にかかる時間を最小限に抑える必要があります。
*パーティション化されていないテーブルに対するクエリ
* パーティション化されていない列での結合
ソリューションに含めるべき 2 つのオプションはどれですか?それぞれの正解は、解決策の一部を示しています。
(正解を選択し、Microsoft Azure 上のデータ エンジニアリングに基づいて答えを裏付ける説明と参照を提供します)
以下の実行にかかる時間を最小限に抑える必要があります。
*パーティション化されていないテーブルに対するクエリ
* パーティション化されていない列での結合
ソリューションに含めるべき 2 つのオプションはどれですか?それぞれの正解は、解決策の一部を示しています。
(正解を選択し、Microsoft Azure 上のデータ エンジニアリングに基づいて答えを裏付ける説明と参照を提供します)
정답: A,C
설명: (DumpTOP 회원만 볼 수 있음)
毎日200,000個の新しいファイルを生成するAzureStorageアカウントがあります。ファイル名の形式は、{YYYY} / {MM} / {DD} / {HH} / {CustomerID} .csvです。
ストレージアカウントからAzureDataLakeに1時間に1回新しいデータを読み込むAzureDataFactoryソリューションを設計する必要があります。このソリューションでは、ロード時間とコストを最小限に抑える必要があります。
ソリューションをどのように構成する必要がありますか?答えるには、答えの中から適切なオプションを選択してください。
注:正しい選択はそれぞれ1ポイントの価値があります。
ストレージアカウントからAzureDataLakeに1時間に1回新しいデータを読み込むAzureDataFactoryソリューションを設計する必要があります。このソリューションでは、ロード時間とコストを最小限に抑える必要があります。
ソリューションをどのように構成する必要がありますか?答えるには、答えの中から適切なオプションを選択してください。
注:正しい選択はそれぞれ1ポイントの価値があります。
정답:
Explanation:
Box 1: Incremental load
Box 2: Tumbling window
Tumbling windows are a series of fixed-sized, non-overlapping and contiguous time intervals. The following diagram illustrates a stream with a series of events and how they are mapped into 10-second tumbling windows.
Reference:
https://docs.microsoft.com/en-us/stream-analytics-query/tumbling-window-azure-stream-analytics
7つの主要な地理的地域に分散された2500万台のデバイスからのテレメトリデータ用のAzureData Lake StorageGen2構造を設計しています。毎分、デバイスはメトリックのJSONペイロードをAzure EventHubsに送信します。
データのフォルダ構造を推奨する必要があります
NS。ソリューションは、次の要件を満たしている必要があります。
各地域のデータエンジニアは、それぞれの地域のデータに対してのみ独自のパイプラインを構築できる必要があります。
Azure Synapse AnalyticsサーバーレスSQLプールに含めるには、データを少なくとも15分ごとに1回処理する必要があります。
構造を完成させることをどのように推奨しますか?答えるには、適切な値を正しいターゲットにドラッグします。各値は、1回使用することも、複数回使用することも、まったく使用しないこともできます。コンテンツを表示するには、ペイン間で分割バーをドラッグするか、スクロールする必要がある場合があります。
注:正しい選択はそれぞれ1ポイントの価値があります。
データのフォルダ構造を推奨する必要があります
NS。ソリューションは、次の要件を満たしている必要があります。
各地域のデータエンジニアは、それぞれの地域のデータに対してのみ独自のパイプラインを構築できる必要があります。
Azure Synapse AnalyticsサーバーレスSQLプールに含めるには、データを少なくとも15分ごとに1回処理する必要があります。
構造を完成させることをどのように推奨しますか?答えるには、適切な値を正しいターゲットにドラッグします。各値は、1回使用することも、複数回使用することも、まったく使用しないこともできます。コンテンツを表示するには、ペイン間で分割バーをドラッグするか、スクロールする必要がある場合があります。
注:正しい選択はそれぞれ1ポイントの価値があります。
정답:
Explanation:
Box 1: {YYYY}/{MM}/{DD}/{HH}
Date Format [optional]: if the date token is used in the prefix path, you can select the date format in which your files are organized. Example: YYYY/MM/DD Time Format [optional]: if the time token is used in the prefix path, specify the time format in which your files are organized. Currently the only supported value is HH.
Box 2: {regionID}/raw
Data engineers from each region must be able to build their own pipelines for the data of their respective region only.
Box 3: {deviceID}
Reference:
https://github.com/paolosalvatori/StreamAnalyticsAzureDataLakeStore/blob/master/README.md
Standard 価格レベルに、workspace1 という名前の Azure Databricks ワークスペースがあります。
自動スケーリングの多目的クラスターをサポートするように、workspace1 を構成する必要があります。ソリューションは、次の要件を満たす必要があります。
クラスターが 3 分間使用されていない場合、ワーカーを自動的にスケールダウンします。
ワーカーの最大数にスケーリングするのにかかる時間を最小限に抑えます。
コストを最小限に抑えます。
最初に何をすべきですか?
自動スケーリングの多目的クラスターをサポートするように、workspace1 を構成する必要があります。ソリューションは、次の要件を満たす必要があります。
クラスターが 3 分間使用されていない場合、ワーカーを自動的にスケールダウンします。
ワーカーの最大数にスケーリングするのにかかる時間を最小限に抑えます。
コストを最小限に抑えます。
最初に何をすべきですか?
정답: A
설명: (DumpTOP 회원만 볼 수 있음)
ジオゾーン冗長ストレージ(GZRS)を導入する高可用性Azure Data LakeStorageソリューションを設計しています。
目標復旧時点(RPO)に影響を与える可能性のあるレプリケーションの遅延を監視する必要があります。
監視ソリューションには何を含める必要がありますか?
目標復旧時点(RPO)に影響を与える可能性のあるレプリケーションの遅延を監視する必要があります。
監視ソリューションには何を含める必要がありますか?
정답: B
설명: (DumpTOP 회원만 볼 수 있음)
storage! という名前の Azure Blob ストレージ アカウントと、Pool! という名前の Azure Synapse Analytics サーバーレス SQL プールがあります。Pool1 から、storage! を対象とするアドホック クエリを実行する予定です。
データ ソースを定義せずに、共有アクセス署名 (SAS) 認証を使用できることを確認する必要があります。最初に何を作成する必要がありますか?
データ ソースを定義せずに、共有アクセス署名 (SAS) 認証を使用できることを確認する必要があります。最初に何を作成する必要がありますか?
정답: A
注:この質問は、同じシナリオを提示する一連の質問の一部です。シリーズの各質問には、述べられた目標を達成する可能性のある独自の解決策が含まれています。一部の質問セットには複数の正しい解決策がある場合がありますが、他の質問セットには正しい解決策がない場合があります。
このセクションの質問に回答した後は、その質問に戻ることはできません。その結果、これらの質問はレビュー画面に表示されません。
Table1という名前のテーブルを含むAzureSynapseAnalytics専用のSQLプールがあります。
container1という名前のAzureData Lake StorageGen2コンテナーに取り込まれてロードされるファイルがあります。
container1のファイルからTable1にデータを挿入し、データを変換することを計画しています。ファイル内のデータの各行は、Table1のサービングレイヤーに1つの行を生成します。
ソースデータファイルがcontainer1にロードされるときに、DateTimeが追加の列としてTable1に格納されていることを確認する必要があります。
解決策:専用のSQLプールを使用して、追加のDateTime列を持つ外部テーブルを作成します。
これは目標を達成していますか?
このセクションの質問に回答した後は、その質問に戻ることはできません。その結果、これらの質問はレビュー画面に表示されません。
Table1という名前のテーブルを含むAzureSynapseAnalytics専用のSQLプールがあります。
container1という名前のAzureData Lake StorageGen2コンテナーに取り込まれてロードされるファイルがあります。
container1のファイルからTable1にデータを挿入し、データを変換することを計画しています。ファイル内のデータの各行は、Table1のサービングレイヤーに1つの行を生成します。
ソースデータファイルがcontainer1にロードされるときに、DateTimeが追加の列としてTable1に格納されていることを確認する必要があります。
解決策:専用のSQLプールを使用して、追加のDateTime列を持つ外部テーブルを作成します。
これは目標を達成していますか?
정답: B
설명: (DumpTOP 회원만 볼 수 있음)
次の表に示すリソースを含む Azure サブスクリプションがあります。
ADF1 からの診断ログは LA1 に送信されます。ADF1 には、DB1 から Dwl にデータをコピーする Pipeline というパイプラインが含まれています。次のアクションを実行する必要があります。
* AG1 という名前のアクション グループを作成します。
* AG1 を使用するには、ADF1 でアラートを設定します。
どのリソース グループに AG1 を作成する必要がありますか?
ADF1 からの診断ログは LA1 に送信されます。ADF1 には、DB1 から Dwl にデータをコピーする Pipeline というパイプラインが含まれています。次のアクションを実行する必要があります。
* AG1 という名前のアクション グループを作成します。
* AG1 を使用するには、ADF1 でアラートを設定します。
どのリソース グループに AG1 を作成する必要がありますか?
정답: A