AWS学習ナビは誰でも利用できますか？

はい、広告付きですべての機能を無料でご利用いただけます。アカウント登録をすると学習履歴の保存やスマート出題機能が使えるようになります。

どのAWS認定試験に対応していますか？

SAA（ソリューションアーキテクトアソシエイト）、SAP（ソリューションアーキテクトプロフェッショナル）、DVA（デベロッパーアソシエイト）、CLF（クラウドプラクティショナー）など主要なAWS認定試験に対応しています。

問題はどのように生成されていますか？

Amazon BedrockのClaude（大規模言語モデル）とAWS公式ドキュメントを参照するナレッジベースを組み合わせてAIが作成しています。

Associate

Data Engineer Associate

試験概要

AWS Certified Data Engineer – Associate（DEA-C01）は、AWS 上でデータパイプラインの設計・構築・運用・セキュリティを担うデータエンジニアの実務能力を評価する Associate レベルの認定試験です。AWS Glue・Amazon Kinesis・Amazon MSK・Amazon S3 データレイク・Amazon Redshift・Amazon Athena・AWS Lake Formation を中心に、バッチ／ストリーミングのデータ取り込みから ETL／ELT、データレイクハウス、データ品質、ガバナンスまでを横断的に問います。合格スコアは 720/1000、試験時間 130 分・65 問で構成され、4 ドメイン（Data Ingestion & Transformation 34%／Data Store Management 26%／Data Operations & Support 22%／Data Security & Governance 18%）から出題されます。旧 Data Analytics Specialty（DAS-C01）が分析寄りだったのに対し、DEA-C01 は「データ基盤の構築と運用」に焦点が移っており、分析よりもパイプライン実装、フォーマット選定、増分処理、CDC、テーブルフォーマット（Apache Iceberg／Hudi／Delta Lake）の理解が重視されます。

対象者・前提知識

本試験は、AWS 上でデータパイプラインを構築・運用する実務経験が 2〜3 年程度あるデータエンジニア、ETL 開発者、アナリティクスエンジニアを主な対象とします。SQL とスクリプト言語（Python／PySpark／Scala のいずれか）、データモデリング（Star／Snowflake スキーマ、SCD）、ファイルフォーマット（Parquet／ORC／Avro）の基礎が前提です。AWS については IAM・S3・VPC・KMS の実務経験が必要で、AWS Cloud Practitioner や Solutions Architect Associate 取得後にデータ基盤の専門性を証明したい方に適しています。データウェアハウス／レイク／レイクハウスの境界が曖昧化する中、ML エンジニアやデータアナリストが基盤層の知識を補強する目的でも取得されています。

ドメイン構成

データの取り込みと変換

34%

Data Ingestion & Transformation では Glue ETL のジョブタイプ（Spark／Spark Streaming／Python Shell／Ray）、Worker タイプとメモリ設計、Job Bookmarks による S3／JDBC ソースの増分読み取り、Pushdown Predicate によるパーティション枝刈りが頻出です。Kinesis Data Streams は「入力 MB/s ÷ 1MB／シャード」でシャード数を計算、オンデマンドモードは自動スケール、Enhanced Fan-Out は専用 2MB/s／コンシューマで低レイテンシー、と整理します。Firehose は「バッファサイズか時間のどちらか早い方でフラッシュ」、動的パーティショニングと変換 Lambda、フォーマット変換（JSON→Parquet）が頻出です。AWS DMS の CDC、AppFlow の SaaS 統合、MSK Connect の Source／Sink コネクタも押さえましょう。

データストアの管理

26%

Data Store Management では Redshift の DISTKEY（JOIN キーに設定して同居配置）／SORTKEY（WHERE 句／ORDER BY に設定して Zone Map 効率化）／DISTSTYLE（KEY／ALL／EVEN／AUTO）の使い分けが最重要です。RA3 ノードはコンピュートとストレージを分離し、Redshift Spectrum は S3 を外部テーブル化、Redshift Serverless は RPU 単位の自動スケール、と整理します。S3 では Hive 形式パーティション（s3://bucket/year=2024/month=01/）と Iceberg のパーティション進化、Athena パーティションプロジェクション（カタログ更新不要）の使い分けが問われます。DynamoDB は単一テーブル設計、PK／SK、GSI／LSI、DAX キャッシュ、TTL を理解しましょう。

データ運用とサポート

22%

Data Operations & Support では Step Functions の Standard と Express の使い分け（長時間／短時間）、エラー処理・リトライ・Catch・Map state の並列処理、MWAA Airflow 2.x の DAG 依存関係、Glue Workflows との比較が問われます。Glue Data Quality は DQDL（Data Quality Definition Language）による完全性・一意性・新鮮性ルールと、結果を CloudWatch／EventBridge へ連携するパターンが頻出です。Athena ワークグループでクエリごとのデータスキャン量上限と CloudWatch メトリクス送信を有効化、Redshift WLM では短時間クエリ加速（SQA）と Concurrency Scaling、EMR Serverless はジョブ単位の自動スケールと従量課金、と整理しましょう。EventBridge Pipes による軽量な Source→Filter→Enrich→Target も近年の頻出論点です。

データセキュリティとガバナンス

18%

Data Security & Governance では Lake Formation のきめ細かな権限が中心です。LF Data Lake Permissions、LF タグ（属性ベース制御）、カラムレベル／行レベル／セルレベルフィルタ、Cross-account 共有を理解しましょう。IAM／S3 バケットポリシー／LF 権限が重なった場合「より制限的な方が適用される」という原則が頻出です。KMS はカスタマーマネージドキー（CMK）と AWS マネージドキーの違い、エンベロープ暗号化（データキーをデータキーで暗号化、CMK で暗号化）、S3／Glue／Redshift／Athena 結果セットでの暗号化シナリオを押さえます。Glue 接続による VPC 内 RDS／Redshift アクセス、Macie によるカスタム識別子と機密データ検出、CloudTrail データイベント、Amazon DataZone によるデータカタログとアクセスリクエスト、AWS Clean Rooms による分析クエリベースの安全なデータ共有も学習範囲です。

出題傾向

Data Ingestion & Transformation（ドメイン 1、34%）が最大の出題ウェイトを持ちます。AWS Glue ETL（PySpark／Scala）、Glue Crawler とデータカタログの自動発見、ジョブブックマークによる増分処理、Glue Studio・Glue DataBrew の使い分けが中心テーマです。Kinesis Data Streams（プロビジョンドとオンデマンド、シャード設計、Enhanced Fan-Out）、Kinesis Data Firehose（バッファサイズ／時間によるフラッシュ、動的パーティショニング、変換 Lambda）、Amazon MSK／MSK Serverless／MSK Connect、AWS DMS の CDC（フルロード→変更データキャプチャ）、AppFlow の SaaS 統合も頻出です。Lambda・EventBridge Pipes による軽量 ETL も近年重みを増しています。

Data Store Management（ドメイン 2、26%）では、S3 のパーティショニング（Hive 形式と Apache Iceberg）、ストレージクラスとライフサイクルポリシー、Parquet／ORC の列指向圧縮、Athena パーティションプロジェクション、Redshift の DISTKEY／SORTKEY 設計、Redshift RA3＋マネージドストレージ、Redshift Serverless、Redshift Spectrum、DynamoDB のパーティション設計と GSI／LSI、Aurora／RDS のリードレプリカ活用が問われます。Iceberg／Hudi／Delta Lake のテーブルフォーマット比較も近年の頻出トピックです。

Data Operations & Support（ドメイン 3、22%）では、Step Functions と Amazon MWAA（Managed Apache Airflow）によるオーケストレーション、Glue Data Quality によるルールベースのデータ品質チェック、CloudWatch メトリクス／Logs／Alarms による監視、EventBridge スケジュール起動、Athena ワークグループによるスキャン量上限とコスト管理、Redshift WLM／Concurrency Scaling、EMR Serverless のジョブ管理、リトライ／DLQ／冪等性の設計が問われます。

Data Security & Governance（ドメイン 4、18%）では、Lake Formation のカラムレベル／行レベル／LF タグによるきめ細かなアクセス制御、KMS によるエンベロープ暗号化、Glue 接続による VPC 内データアクセス、Macie による機密データ検出、Redshift RLS／ダイナミックデータマスキング、Amazon DataZone によるデータカタログとガバナンス、Clean Rooms による安全なデータ共有が頻出です。

学習のポイント

データパイプラインを「取り込み → 変換 → 保管 → 提供 → 運用」の 5 フェーズで俯瞰し、各フェーズの代表サービスと選択基準を表で整理してください。バッチ系（Glue／EMR／Redshift COPY）とストリーミング系（Kinesis／MSK／Firehose）を分けて学習することで、問題文中のキーワード（「リアルタイム」「数秒以内」「日次」など）から即座に正解候補を絞れるようになります。

Glue は本試験の中心サービスです。Crawler（メタデータ自動発見）／Data Catalog（中央メタストア）／ETL Job（PySpark／Python Shell／Ray）／Job Bookmarks（増分処理）／Workflows／Triggers／Glue Streaming／Glue Data Quality／DataBrew のそれぞれの役割と、DPU 単位の課金構造、Worker タイプ（G.1X／G.2X／G.025X）を整理しましょう。Glue は試験全体の 2〜3 割の問題に何らかの形で登場します。

ファイルフォーマットとテーブルフォーマットの区別は重要です。Parquet／ORC／Avro はファイルフォーマット（列指向 vs 行指向、圧縮、スキーマ進化）、Apache Iceberg／Hudi／Delta Lake はテーブルフォーマット（ACID、time-travel、スキーマ進化、パーティション進化、UPSERT／DELETE 対応）と分けて理解してください。Athena・EMR・Redshift Spectrum・Glue がそれぞれどのテーブルフォーマットをネイティブにサポートするかも押さえましょう。

コスト最適化はあらゆる問題に関わります。Athena ではパーティショニング＋列指向＋圧縮でスキャン量を削減、ワークグループでデータスキャン量上限を設定、Redshift では Concurrency Scaling／RA3 マネージドストレージ／Redshift Serverless の RPU 単位課金、S3 では Intelligent-Tiering とライフサイクルによる Glacier 移行、を要件キーワードに即応できるようにしてください。

セキュリティは Lake Formation 中心で学習してください。S3 バケットポリシーと IAM、Lake Formation 権限の優先関係（より制限的なものが優先）、LF タグによる属性ベース制御、行レベル・カラムレベルセキュリティ、Glue / Athena / Redshift Spectrum / EMR との連携を整理し、KMS のエンベロープ暗号化、CloudTrail データイベント、Macie によるカスタム識別子検出と組み合わせて答えられるようにしましょう。

練習問題サンプル

本試験の出題傾向に沿って、AWS公式ドキュメントを基に作成し人が検証した代表的な問題と詳しい解説です。各試験ページでは、さらに多くの問題に挑戦できます。

ドメイン: データの取り込みと変換

複数ソースのデータに対して、サーバーレスで Apache Spark ベースの ETL ジョブを実行し、データカタログでスキーマを一元管理したい。最適なサービスはどれか。

AAmazon EMR クラスターを常時起動して運用する
BAWS Glue
CAmazon EC2 上に自前で Spark を構築する
DAmazon QuickSight

正解: B. AWS Glue

解説: AWS Glue はサーバーレスの ETL サービスで、Spark / Python ベースのジョブをインフラ管理なしで実行でき、Glue Data Catalog がスキーマ・テーブル定義を一元管理して Athena や Redshift Spectrum からも参照できます。EMR は大規模・常時稼働や細かいクラスタ制御が必要な場合に強力ですが運用負荷とコストが高く、EC2 自前構築は管理負荷が大、QuickSight は BI 可視化ツールで ETL ではありません。

ドメイン: データストアの管理

Amazon S3 に蓄積された大量のログを、サーバーを管理せずに標準SQLでアドホックに分析したい。スキャンしたデータ量に対して課金される仕組みが望ましい。最適なサービスはどれか。

AAmazon Athena
BAmazon RDS for MySQL
Cすべてを Amazon Redshift に常時ロードする
DAmazon DynamoDB

正解: A. Amazon Athena

解説: Amazon Athena は、S3 上のデータに対してサーバーレスで標準 SQL（Presto/Trino ベース）を実行でき、スキャンしたデータ量に応じた従量課金で、アドホック分析に最適です。列指向フォーマット（Parquet）やパーティショニングでスキャン量を抑えればコストも削減できます。RDS/DynamoDB は S3 上のファイルを直接クエリする用途ではなく、Redshift は継続的・高頻度の大規模分析には適しますが「常時ロード」はアドホック要件に対して過剰でコスト効率が劣ります。

ドメイン: データセキュリティとガバナンス

データレイク全体に対して、テーブル・列・行レベルの細かいアクセス権限を一元的に付与・管理したい。最適なサービスはどれか。

AS3 バケットポリシーのみで制御する
BAWS Lake Formation
CIAM ユーザーごとに手動でポリシーを書く
DAmazon Macie

正解: B. AWS Lake Formation

解説: AWS Lake Formation は、S3 ベースのデータレイクに対してデータベース・テーブル・列・行・セル単位の細粒度アクセス制御を一元管理でき、Glue Data Catalog と統合してガバナンスを効率化します。バケットポリシーや手書き IAM はオブジェクト/プレフィックス単位が中心で、列・行レベルの制御や横断的な権限管理には不向きです。Macie は機微データの検出・分類が目的で、アクセス権限の付与管理そのものは行いません。

本記事およびサンプル問題は、AWS公式ドキュメントを基に作成し、運営者が編集・監修しています。詳しくは編集・品質管理方針をご覧ください。