試験ガイド / Data Engineer Associate
Associate

Data Engineer Associate

試験概要

AWS Certified Data Engineer – Associate(DEA-C01)は、AWS 上でデータパイプラインの設計・構築・運用・セキュリティを担うデータエンジニアの実務能力を評価する Associate レベルの認定試験です。AWS Glue・Amazon Kinesis・Amazon MSK・Amazon S3 データレイク・Amazon Redshift・Amazon Athena・AWS Lake Formation を中心に、バッチ/ストリーミングのデータ取り込みから ETL/ELT、データレイクハウス、データ品質、ガバナンスまでを横断的に問います。合格スコアは 720/1000、試験時間 130 分・65 問で構成され、4 ドメイン(Data Ingestion & Transformation 34%/Data Store Management 26%/Data Operations & Support 22%/Data Security & Governance 18%)から出題されます。旧 Data Analytics Specialty(DAS-C01)が分析寄りだったのに対し、DEA-C01 は「データ基盤の構築と運用」に焦点が移っており、分析よりもパイプライン実装、フォーマット選定、増分処理、CDC、テーブルフォーマット(Apache Iceberg/Hudi/Delta Lake)の理解が重視されます。

対象者・前提知識

本試験は、AWS 上でデータパイプラインを構築・運用する実務経験が 2〜3 年程度あるデータエンジニア、ETL 開発者、アナリティクスエンジニアを主な対象とします。SQL とスクリプト言語(Python/PySpark/Scala のいずれか)、データモデリング(Star/Snowflake スキーマ、SCD)、ファイルフォーマット(Parquet/ORC/Avro)の基礎が前提です。AWS については IAM・S3・VPC・KMS の実務経験が必要で、AWS Cloud Practitioner や Solutions Architect Associate 取得後にデータ基盤の専門性を証明したい方に適しています。データウェアハウス/レイク/レイクハウスの境界が曖昧化する中、ML エンジニアやデータアナリストが基盤層の知識を補強する目的でも取得されています。

ドメイン構成

データの取り込みと変換
34%
Data Ingestion & Transformation では Glue ETL のジョブタイプ(Spark/Spark Streaming/Python Shell/Ray)、Worker タイプとメモリ設計、Job Bookmarks による S3/JDBC ソースの増分読み取り、Pushdown Predicate によるパーティション枝刈りが頻出です。Kinesis Data Streams は「入力 MB/s ÷ 1MB/シャード」でシャード数を計算、オンデマンドモードは自動スケール、Enhanced Fan-Out は専用 2MB/s/コンシューマで低レイテンシー、と整理します。Firehose は「バッファサイズか時間のどちらか早い方でフラッシュ」、動的パーティショニングと変換 Lambda、フォーマット変換(JSON→Parquet)が頻出です。AWS DMS の CDC、AppFlow の SaaS 統合、MSK Connect の Source/Sink コネクタも押さえましょう。
データストアの管理
26%
Data Store Management では Redshift の DISTKEY(JOIN キーに設定して同居配置)/SORTKEY(WHERE 句/ORDER BY に設定して Zone Map 効率化)/DISTSTYLE(KEY/ALL/EVEN/AUTO)の使い分けが最重要です。RA3 ノードはコンピュートとストレージを分離し、Redshift Spectrum は S3 を外部テーブル化、Redshift Serverless は RPU 単位の自動スケール、と整理します。S3 では Hive 形式パーティション(s3://bucket/year=2024/month=01/)と Iceberg のパーティション進化、Athena パーティションプロジェクション(カタログ更新不要)の使い分けが問われます。DynamoDB は単一テーブル設計、PK/SK、GSI/LSI、DAX キャッシュ、TTL を理解しましょう。
データ運用とサポート
22%
Data Operations & Support では Step Functions の Standard と Express の使い分け(長時間/短時間)、エラー処理・リトライ・Catch・Map state の並列処理、MWAA Airflow 2.x の DAG 依存関係、Glue Workflows との比較が問われます。Glue Data Quality は DQDL(Data Quality Definition Language)による完全性・一意性・新鮮性ルールと、結果を CloudWatch/EventBridge へ連携するパターンが頻出です。Athena ワークグループでクエリごとのデータスキャン量上限と CloudWatch メトリクス送信を有効化、Redshift WLM では短時間クエリ加速(SQA)と Concurrency Scaling、EMR Serverless はジョブ単位の自動スケールと従量課金、と整理しましょう。EventBridge Pipes による軽量な Source→Filter→Enrich→Target も近年の頻出論点です。
データセキュリティとガバナンス
18%
Data Security & Governance では Lake Formation のきめ細かな権限が中心です。LF Data Lake Permissions、LF タグ(属性ベース制御)、カラムレベル/行レベル/セルレベルフィルタ、Cross-account 共有を理解しましょう。IAM/S3 バケットポリシー/LF 権限が重なった場合「より制限的な方が適用される」という原則が頻出です。KMS はカスタマーマネージドキー(CMK)と AWS マネージドキーの違い、エンベロープ暗号化(データキーをデータキーで暗号化、CMK で暗号化)、S3/Glue/Redshift/Athena 結果セットでの暗号化シナリオを押さえます。Glue 接続による VPC 内 RDS/Redshift アクセス、Macie によるカスタム識別子と機密データ検出、CloudTrail データイベント、Amazon DataZone によるデータカタログとアクセスリクエスト、AWS Clean Rooms による分析クエリベースの安全なデータ共有も学習範囲です。

出題傾向

Data Ingestion & Transformation(ドメイン 1、34%)が最大の出題ウェイトを持ちます。AWS Glue ETL(PySpark/Scala)、Glue Crawler とデータカタログの自動発見、ジョブブックマークによる増分処理、Glue Studio・Glue DataBrew の使い分けが中心テーマです。Kinesis Data Streams(プロビジョンドとオンデマンド、シャード設計、Enhanced Fan-Out)、Kinesis Data Firehose(バッファサイズ/時間によるフラッシュ、動的パーティショニング、変換 Lambda)、Amazon MSK/MSK Serverless/MSK Connect、AWS DMS の CDC(フルロード→変更データキャプチャ)、AppFlow の SaaS 統合も頻出です。Lambda・EventBridge Pipes による軽量 ETL も近年重みを増しています。

Data Store Management(ドメイン 2、26%)では、S3 のパーティショニング(Hive 形式と Apache Iceberg)、ストレージクラスとライフサイクルポリシー、Parquet/ORC の列指向圧縮、Athena パーティションプロジェクション、Redshift の DISTKEY/SORTKEY 設計、Redshift RA3+マネージドストレージ、Redshift Serverless、Redshift Spectrum、DynamoDB のパーティション設計と GSI/LSI、Aurora/RDS のリードレプリカ活用が問われます。Iceberg/Hudi/Delta Lake のテーブルフォーマット比較も近年の頻出トピックです。

Data Operations & Support(ドメイン 3、22%)では、Step Functions と Amazon MWAA(Managed Apache Airflow)によるオーケストレーション、Glue Data Quality によるルールベースのデータ品質チェック、CloudWatch メトリクス/Logs/Alarms による監視、EventBridge スケジュール起動、Athena ワークグループによるスキャン量上限とコスト管理、Redshift WLM/Concurrency Scaling、EMR Serverless のジョブ管理、リトライ/DLQ/冪等性の設計が問われます。

Data Security & Governance(ドメイン 4、18%)では、Lake Formation のカラムレベル/行レベル/LF タグによるきめ細かなアクセス制御、KMS によるエンベロープ暗号化、Glue 接続による VPC 内データアクセス、Macie による機密データ検出、Redshift RLS/ダイナミックデータマスキング、Amazon DataZone によるデータカタログとガバナンス、Clean Rooms による安全なデータ共有が頻出です。

学習のポイント

データパイプラインを「取り込み → 変換 → 保管 → 提供 → 運用」の 5 フェーズで俯瞰し、各フェーズの代表サービスと選択基準を表で整理してください。バッチ系(Glue/EMR/Redshift COPY)とストリーミング系(Kinesis/MSK/Firehose)を分けて学習することで、問題文中のキーワード(「リアルタイム」 「数秒以内」 「日次」 など)から即座に正解候補を絞れるようになります。

Glue は本試験の中心サービスです。Crawler(メタデータ自動発見)/Data Catalog(中央メタストア)/ETL Job(PySpark/Python Shell/Ray)/Job Bookmarks(増分処理)/Workflows/Triggers/Glue Streaming/Glue Data Quality/DataBrew のそれぞれの役割と、DPU 単位の課金構造、Worker タイプ(G.1X/G.2X/G.025X)を整理しましょう。Glue は試験全体の 2〜3 割の問題に何らかの形で登場します。

ファイルフォーマットとテーブルフォーマットの区別は重要です。Parquet/ORC/Avro はファイルフォーマット(列指向 vs 行指向、圧縮、スキーマ進化)、Apache Iceberg/Hudi/Delta Lake はテーブルフォーマット(ACID、time-travel、スキーマ進化、パーティション進化、UPSERT/DELETE 対応)と分けて理解してください。Athena・EMR・Redshift Spectrum・Glue がそれぞれどのテーブルフォーマットをネイティブにサポートするかも押さえましょう。

コスト最適化はあらゆる問題に関わります。Athena ではパーティショニング+列指向+圧縮でスキャン量を削減、ワークグループでデータスキャン量上限を設定、Redshift では Concurrency Scaling/RA3 マネージドストレージ/Redshift Serverless の RPU 単位課金、S3 では Intelligent-Tiering とライフサイクルによる Glacier 移行、を要件キーワードに即応できるようにしてください。

セキュリティは Lake Formation 中心で学習してください。S3 バケットポリシーと IAM、Lake Formation 権限の優先関係(より制限的なものが優先)、LF タグによる属性ベース制御、行レベル・カラムレベルセキュリティ、Glue / Athena / Redshift Spectrum / EMR との連携を整理し、KMS のエンベロープ暗号化、CloudTrail データイベント、Macie によるカスタム識別子検出と組み合わせて答えられるようにしましょう。