최신 Professional-Data-Engineer日本語 무료덤프 - Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)

문제1

組織では、6 か月間 Google BigQuery でデータを収集し、分析してきました。分析されたデータの大部分は、events_partitioned という時間パーティションテーブルに格納されています。クエリのコストを削減するために、組織では events というビューを作成しました。このビューは、過去 14 日間のデータのみをクエリします。このビューは、レガシー SQL で記述されています。来月、既存のアプリケーションは BigQuery に接続し、ODBC 接続を介してイベントデータを読み取ることになります。アプリケーションが接続できることを確認する必要があります。実行する必要があるアクションはどれですか (2 つ選択してください)。

A. 標準SQLを使用してイベントの新しいビューを作成する

B. 標準SQLクエリを使用して新しいパーティションテーブルを作成します

C. 認証に使用するODBC接続のサービスアカウントを作成します

D. 標準SQLを使用してevents_partitionedの新しいビューを作成します。

E. ODBC 接続と共有「イベント」用の Google Cloud Identity and Access Management（Cloud IAM）ロールを作成します。

정답: A,E

문제2

人間の顔が含まれているかどうかがラベル付けされた画像のデータセットがあるとします。このラベル付けされたデータセットを使用して画像内の人間の顔を認識するニューラルネットワークを作成するには、どのようなアプローチが最も効果的でしょうか。

A. K-means クラスタリングを使用してピクセル内の顔を検出します。

B. 複数の隠し層を持つニューラルネットワークを作成してディープラーニングを使用し、顔の特徴を自動的に検出します。

C. 特徴エンジニアリングを使用して、入力データに目、鼻、口の特徴を追加します。

D. ピクセルの入力層、隠し層、および 2 つのカテゴリの出力層を持つニューラルネットワークを構築します。

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제3

Cloud Storage には、データサイエンスチームがモデルで使用したいさまざまなファイルがあります。現在、ユーザーには Cloud Storage 内のデータを探索、クレンジング、検証する方法がありません。データサイエンスチームが Cloud Storage 内のデータをすばやくクレンジングおよび探索するために使用できるローコードソリューションを探しています。どうすればよいでしょうか。

A. データを BigQuery に読み込み、必要に応じて SQL を使用してデータを変換します。データサイエンスチームにステージングテーブルへのアクセス権を付与して、生データを探索できるようにします。

B. データサイエンスチームにDataflow へのアクセス権を付与し、生データを準備および検証し、データ探索のために BigQuery にデータをロードするパイプラインを作成します。

C. データサイエンスチームに Dataprep へのアクセス権を付与し、Cloud Storage 内のデータを準備、検証、探索できるようにします。

D. BigQuery で外部テーブルを作成し、必要に応じて SQL を使用してデータを変換し、データサイエンスチームに外部テーブルへのアクセス権を付与して生データを探索できるようにします。

정답: C

설명: (DumpTOP 회원만 볼 수 있음)

문제4

組織のマーケティングチームは、顧客データセットのセグメントを定期的に更新しています。マーケティングチームから、BigQuery で更新する必要がある 100 万件のレコードを含む CSV が提供されています。BigQuery で UPDATE ステートメントを使用すると、quotaExceeded エラーが発生します。どうすればよいでしょうか。

A. CSV ファイルから新しいレコードを新しい BigQuery テーブルにインポートします。新しいレコードを既存のレコードとマージし、結果を新しい BigQuery テーブルに書き込む BigQuery ジョブを作成します。

B. BigQuery UPDATE DML ステートメントの制限内に収まるように、毎日更新されるレコードの数を減らします。

C. ソース CSV ファイルを Cloud Storage 内の小さな CSV ファイルに分割して、BigQuery ジョブあたりの BigQuery UPDATE DML ステートメントの数を減らします。

D. Google Cloud Platform Console の割り当て管理セクションで、BigQuery UPDATE DML ステートメントの制限を増やします。

정답: A

문제5

BigQuery のデータ変換ソリューションを設計しています。開発者は SOL に精通しており、ELT 開発手法を使用したいと考えています。さらに、開発者は直感的なコーディング環境と、SQL をコードとして管理する能力を必要としています。開発者がこれらのパイプラインを構築するためのソリューションを特定する必要があります。何をすべきでしょうか?

A. Data Fusion を使用して ETL パイプラインを構築および実行する

B. Cloud Composer を使用してデータを読み込み、BigQuery ジョブ演算子を使用して SQL パイプラインを実行します。

C. Dataflow ジョブを使用して Pub/Sub からデータを読み取り、データを変換し、BigQuery に読み込みます。

D. Dataform を使用して、SQL パイプラインを構築、管理、スケジュールします。

정답: D

설명: (DumpTOP 회원만 볼 수 있음)

문제6

BigQuery に保存されている顧客データを暗号化したいと考えています。テーブルに保存されているデータに対して、ユーザー向けの暗号化削除を実装する必要があります。カスタムソリューションを回避するために、Google Cloud のネイティブ機能を採用したいと考えています。どうすればよいでしょうか。

A. ETL パイプラインでサポートされている暗号化ライブラリを使用して、取り込み中にデータを暗号化します。

B. Cloud KMS で顧客管理の暗号鍵 (CMEK) を作成します。テーブルの作成時に、キーをテーブルに関連付けます。

C. Cloud KMS で顧客管理の暗号鍵 (CMEK) を作成します。この鍵を使用して、BigQuery に保存する前にデータを暗号化します。

D. BigQuery にデータを保存するときに、関連データを使用した認証済み暗号化 (AEAD) BigQuery 関数を実装します。

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제7

顧客の住所を含むBigQueryデータセットが1つあります。データセットからすべての住所を取得したいとします。どうすればよいでしょうか？

A. Cloud Data Loss Prevention で匿名化ジョブを作成し、マスキング変換を使用します。

B. Cloud Data Loss Prevention を使用してデータセット内の各テーブルに対して詳細な検査ジョブを作成し、STREET_ADDRESS infoType を含む検査テンプレートを作成します。

C. データセット内のすべてのテーブルに対して REGEXP_CONTAINS を使用して BigQuery で SQL クエリを記述し、「street」という単語が出現する行を検索します。

D. Cloud Data Loss Prevention を使用して組織に検出スキャン構成を作成し、STREET_ADDRESS infoType を含む検査テンプレートを作成します。

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제8

Google の Dataflow SDK を使用して、以下に示すような顧客データを分析する予定です。プロジェクトの要件は、データソースから顧客名のみを抽出し、出力 PCollection に書き込むことです。
トム、555 X 通り
ティム、553 Yストリート
サム、111 Z ストリート
上記のデータ処理要件に最適な操作はどれですか?

A. ソースAPI

B. パルド

C. シンクAPI

D. データ抽出

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제9

BigQuery ジョブを実行するプロジェクトが 2 つあります。
* あるプロジェクトでは、完了時間の SLA が厳格に定められた運用ジョブを実行しています。これらは優先度の高いジョブであり、必要なときに必要なコンピューティングリソースを利用できる必要があります。これらのジョブの使用率は、通常 300 スロットを下回ることはありませんが、時折、さらに 500 スロットまで急上昇することがあります。
* もう 1 つのプロジェクトは、ユーザーがアドホック分析クエリを実行するためのものです。このプロジェクトでは通常、一度に 200 を超えるスロットが使用されることはありません。これらのアドホッククエリは、スロット容量ではなく、ユーザーがスキャンするデータの量に基づいて課金されるようにします。
両方のプロジェクトで適切なコンピューティングリソースが利用可能であることを確認する必要があります。どうすればよいでしょうか?

A. プロジェクトごとに 1 つずつ、合計 2 つの Enterprise Edition 予約を作成します。SLA プロジェクトの場合は、ベースラインを 300 スロットに設定し、最大 500 スロットの自動スケーリングを有効にします。アドホックプロジェクトの場合は、予約ベースラインを 0 スロットに設定し、ignore_idle_slot3 フラグを False に設定します。

B. プロジェクトごとに 1 つずつ、合計 2 つの Enterprise Edition 予約を作成します。SLA プロジェクトの場合は、ベースラインを 800 スロットに設定します。アドホックプロジェクトの場合は、最大 200 スロットの自動スケーリングを有効にします。

C. プロジェクトごとに 1 つずつ、合計 2 つの予約を作成します。SLA プロジェクトでは、ベースラインが 300 スロットの Enterprise Edition を使用し、最大 500 スロットまでの自動スケーリングを有効にします。アドホックプロジェクトでは、オンデマンド課金を構成します。

D. 両方のプロジェクトに対して単一の Enterprise Edition 予約を作成します。ベースラインを 300 スロットに設定します。最大 700 スロットまでの自動スケーリングを有効にします。

정답: C

설명: (DumpTOP 회원만 볼 수 있음)

문제10

Dataproc クラスタインスタンス上のソフトウェアをカスタマイズする方法ではないものはどれですか。

A. クラスタープロパティを使用して構成ファイルを変更する

B. Cloud Deployment Manager を使用してクラスタを構成する

C. 初期化アクションを設定する

D. マスターノードにログインし、そこから変更を加える

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제11

あなたのチームは、社内の ETL の開発と保守を担当しています。入力データにエラーがあるために、データフロージョブの 1 つが失敗しており、パイプラインの信頼性を向上させる必要があります (失敗したデータをすべて再処理できるようにするなど)。
何をすべきでしょうか?

A. フィルタリング手順を追加して、今後これらのタイプのエラーをスキップし、ログからエラーのある行を抽出します。

B. データを変換し、ログからエラーのある行を抽出する DoFn に try... catch ブロックを追加します。

C. データを変換する DoFn に try... catch ブロックを追加し、sideOutput を使用して、後で PubSub に保存できる PCollection を作成します。

D. データを変換する try... catch ブロックを DoFn に追加し、エラーのある行を DoFn から直接 PubSub に書き込みます。

정답: D

문제12

レガシー SQL と標準 SQL に関する次の記述のうち、正しくないものはどれですか。

A. レガシー SQL でクエリを記述した場合、標準 SQL で実行しようとするとエラーが発生する可能性があります。

B. BigQuery では標準 SQL が推奨されるクエリ言語です。

C. 各データセットのクエリ言語を設定する必要があります。デフォルトは標準 SQL です。

D. 2 つのクエリ言語の違いの 1 つは、完全修飾テーブル名 (つまり、関連付けられたプロジェクト名を含むテーブル名) を指定する方法です。

정답: C

설명: (DumpTOP 회원만 볼 수 있음)

문제13

Google が課金する BigQuery 操作とは何ですか?

A. ストレージ、クエリ、データのエクスポート

B. ストレージ、クエリ、ストリーミング挿入

C. クエリとストリーミング挿入

D. ストレージ、クエリ、ファイルからのデータの読み込み

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제14

Google Cloud で新しいパイプラインを作成し、Cloud Pub/Sub から Cloud Dataflow を経由して BigQuery に IoT データをストリーミングしています。データをプレビューすると、約 2% のデータが破損しているようです。この破損したデータを除外するには、Cloud Dataflow パイプラインを変更する必要があります。どうすればよいでしょうか。

A. Cloud Dataflow にパーティション変換を追加して、有効なデータと破損したデータを分離します。

B. Cloud Dataflow に GroupByKey 変換を追加して、有効なデータをすべてグループ化し、残りを破棄します。

C. 破損した要素を破棄するには、Cloud Dataflow に ParDo 変換を追加します。

D. 要素が破損している場合にブール値を返す SideInput を追加します。

정답: C

문제15

あなたは、さまざまなストレージサービスでそれぞれのデータ所有者によってデータが整理および管理されている医療組織の一員です。この分散型エコシステムの結果、データの検出と管理が困難になっています。組織を支援するために、コストを最適化したソリューションを迅速に特定して実装する必要があります。
* データ管理と発見
* データ系統の追跡
* データ品質の検証
ソリューションをどのように構築すればよいでしょうか?

A. BigOuery を使用してデータ系統を追跡し、Dataprep を使用してデータを管理し、データ品質の検証を実行します。

B. 新しいソースのオンボーディングとデータ系統の追跡に役立つ新しいデータ検出ツールを Google Kubernetes Engine 上に構築します。

C. Dataplex を使用して、データを管理し、データ系統を追跡し、データ品質の検証を実行します。

D. BigLake を使用して、現在のソリューションをデータレイクアーキテクチャに変換します。

정답: C

설명: (DumpTOP 회원만 볼 수 있음)

문제16

日付ごとに分割された、何百万行もの売上データを含むテーブルがあります。さまざまなアプリケーションとユーザーが、1 分間に何度もこのデータをクエリします。クエリでは、平均、最大、合計を使用して値を集計する必要があり、他のテーブルに結合する必要はありません。必要な集計は過去 1 年間のデータに対してのみ計算されますが、ベーステーブルには完全な履歴データを保持する必要があります。クエリ結果に常にテーブルの最新データが含まれるようにすると同時に、計算コスト、メンテナンスのオーバーヘッド、および期間を削減する必要があります。どうすればよいでしょうか。

A. パーティションの最終年を指定するためのフィルター句を含む、ベーステーブルデータを集計する新しいテーブルを作成します。スケジュールされたクエリを設定して、1 時間ごとに新しいテーブルを再作成します。

B. ベーステーブルデータを集計するビューを作成します。パーティションの最終年を指定するためのフィルター句を含めます。

C. ベーステーブルデータを集計するマテリアライズドビューを作成します。ベーステーブルでパーティションの有効期限を構成して、過去 1 年間のパーティションのみを保持します。

D. パーティションの過去 1 年間を指定するフィルター句を含む、ベーステーブルデータを集計するマテリアライズドビューを作成します。

정답: A

설명: (DumpTOP 회원만 볼 수 있음)

문제17

あなたは銀行で働いています。すでに承認されたローン申請に関する情報と、これらの申請が不履行になったかどうかを含むラベル付きデータセットがあります。あなたは、融資申請者の不履行率を予測するモデルをトレーニングするように依頼されました。
何をすべきでしょうか?

A. ローン申請者とそのソーシャルプロファイルを照合して、機能エンジニアリングを有効にします。

B. データから偏りを取り除き、融資が拒否された申請を収集します。

C. 線形回帰をトレーニングして、信用デフォルトリスクスコアを予測します。

D. 追加データを収集してデータセットのサイズを増やします。

정답: C

문제18

Google Cloud にデータパイプラインをデプロイする一環として、20 TB のテキストファイル用のストレージを設計しています。入力データは CSV 形式です。複数のエンジンを使用して Cloud Storage のデータをクエリする複数のユーザーに対して集計値をクエリするコストを最小限に抑えたいと考えています。どのストレージサービスとスキーマ設計を使用すればよいでしょうか。

A. ストレージには Cloud Bigtable を使用します。クエリ用に BigQuery の永続テーブルとしてリンクします。

B. ストレージには Cloud Bigtable を使用します。Cloud Bigtable データをクエリするには、Compute Engine インスタンスに HBase シェルをインストールします。

C. ストレージには Cloud Storage を使用します。クエリ用に BigQuery の一時テーブルとしてリンクします。

D. ストレージには Cloud Storage を使用します。クエリ用に BigQuery の永続テーブルとしてリンクします。

정답: B

문제19

組織全体のデータセットを準備しています。Cloud Storage の制限付きバケットに保存されている顧客データを前処理する必要があります。このデータは消費者分析を作成するために使用されます。特定の機密データ要素を保護するなど、データプライバシー要件に従う必要がありますが、同時に将来の潜在的なユースケースのためにすべてのデータを保持する必要があります。どうすればよいでしょうか。

A. Dataflow と Cloud KMS を使用して機密フィールドを暗号化し、暗号化されたデータを BigQuery に書き込みます。最小権限の原則に従って暗号化キーを共有します。

B. Dataflow と Cloud Data Loss Prevention API を使用して機密データをマスクします。処理されたデータを BigQuery に書き込みます。

C. Cloud Data Loss Prevention API と Dataflow を使用して、Cloud Storage のデータから機密フィールドを検出して削除します。フィルタリングされたデータを BigQuery に書き込みます。

D. 顧客管理の暗号鍵 (CMEK) を使用して、Cloud Storage 内のデータを直接暗号化します。BigQuery からの連携クエリを使用します。最小権限の原則に従って暗号鍵を共有します。

정답: B

설명: (DumpTOP 회원만 볼 수 있음)

문제20

Google Cloud Platform 上で実行される POS アプリケーションで支払い取引を処理したいと考えています。ユーザーベースは飛躍的に増加する可能性がありますが、インフラストラクチャのスケーリングを管理する必要はありません。
どの Google データベースサービスを使用すればよいですか?

A. クラウドビッグテーブル

B. クラウドデータストア

C. クラウドSQL

D. ビッグクエリ

정답: C

최신 Professional-Data-Engineer日本語 무료덤프 - Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)

우리와 연락하기

유용한 링크

최신 업데이트