Data Engineer Associate
試験概要
AWS Certified Data Engineer – Associate(DEA-C01)は、AWS 上でデータパイプラインの設計・構築・運用・セキュリティを担うデータエンジニアの実務能力を評価する Associate レベルの認定試験です。AWS Glue・Amazon Kinesis・Amazon MSK・Amazon S3 データレイク・Amazon Redshift・Amazon Athena・AWS Lake Formation を中心に、バッチ/ストリーミングのデータ取り込みから ETL/ELT、データレイクハウス、データ品質、ガバナンスまでを横断的に問います。合格スコアは 720/1000、試験時間 130 分・65 問で構成され、4 ドメイン(Data Ingestion & Transformation 34%/Data Store Management 26%/Data Operations & Support 22%/Data Security & Governance 18%)から出題されます。旧 Data Analytics Specialty(DAS-C01)が分析寄りだったのに対し、DEA-C01 は「データ基盤の構築と運用」に焦点が移っており、分析よりもパイプライン実装、フォーマット選定、増分処理、CDC、テーブルフォーマット(Apache Iceberg/Hudi/Delta Lake)の理解が重視されます。
対象者・前提知識
本試験は、AWS 上でデータパイプラインを構築・運用する実務経験が 2〜3 年程度あるデータエンジニア、ETL 開発者、アナリティクスエンジニアを主な対象とします。SQL とスクリプト言語(Python/PySpark/Scala のいずれか)、データモデリング(Star/Snowflake スキーマ、SCD)、ファイルフォーマット(Parquet/ORC/Avro)の基礎が前提です。AWS については IAM・S3・VPC・KMS の実務経験が必要で、AWS Cloud Practitioner や Solutions Architect Associate 取得後にデータ基盤の専門性を証明したい方に適しています。データウェアハウス/レイク/レイクハウスの境界が曖昧化する中、ML エンジニアやデータアナリストが基盤層の知識を補強する目的でも取得されています。
ドメイン構成
出題傾向
Data Ingestion & Transformation(ドメイン 1、34%)が最大の出題ウェイトを持ちます。AWS Glue ETL(PySpark/Scala)、Glue Crawler とデータカタログの自動発見、ジョブブックマークによる増分処理、Glue Studio・Glue DataBrew の使い分けが中心テーマです。Kinesis Data Streams(プロビジョンドとオンデマンド、シャード設計、Enhanced Fan-Out)、Kinesis Data Firehose(バッファサイズ/時間によるフラッシュ、動的パーティショニング、変換 Lambda)、Amazon MSK/MSK Serverless/MSK Connect、AWS DMS の CDC(フルロード→変更データキャプチャ)、AppFlow の SaaS 統合も頻出です。Lambda・EventBridge Pipes による軽量 ETL も近年重みを増しています。
Data Store Management(ドメイン 2、26%)では、S3 のパーティショニング(Hive 形式と Apache Iceberg)、ストレージクラスとライフサイクルポリシー、Parquet/ORC の列指向圧縮、Athena パーティションプロジェクション、Redshift の DISTKEY/SORTKEY 設計、Redshift RA3+マネージドストレージ、Redshift Serverless、Redshift Spectrum、DynamoDB のパーティション設計と GSI/LSI、Aurora/RDS のリードレプリカ活用が問われます。Iceberg/Hudi/Delta Lake のテーブルフォーマット比較も近年の頻出トピックです。
Data Operations & Support(ドメイン 3、22%)では、Step Functions と Amazon MWAA(Managed Apache Airflow)によるオーケストレーション、Glue Data Quality によるルールベースのデータ品質チェック、CloudWatch メトリクス/Logs/Alarms による監視、EventBridge スケジュール起動、Athena ワークグループによるスキャン量上限とコスト管理、Redshift WLM/Concurrency Scaling、EMR Serverless のジョブ管理、リトライ/DLQ/冪等性の設計が問われます。
Data Security & Governance(ドメイン 4、18%)では、Lake Formation のカラムレベル/行レベル/LF タグによるきめ細かなアクセス制御、KMS によるエンベロープ暗号化、Glue 接続による VPC 内データアクセス、Macie による機密データ検出、Redshift RLS/ダイナミックデータマスキング、Amazon DataZone によるデータカタログとガバナンス、Clean Rooms による安全なデータ共有が頻出です。
学習のポイント
データパイプラインを「取り込み → 変換 → 保管 → 提供 → 運用」の 5 フェーズで俯瞰し、各フェーズの代表サービスと選択基準を表で整理してください。バッチ系(Glue/EMR/Redshift COPY)とストリーミング系(Kinesis/MSK/Firehose)を分けて学習することで、問題文中のキーワード(「リアルタイム」 「数秒以内」 「日次」 など)から即座に正解候補を絞れるようになります。
Glue は本試験の中心サービスです。Crawler(メタデータ自動発見)/Data Catalog(中央メタストア)/ETL Job(PySpark/Python Shell/Ray)/Job Bookmarks(増分処理)/Workflows/Triggers/Glue Streaming/Glue Data Quality/DataBrew のそれぞれの役割と、DPU 単位の課金構造、Worker タイプ(G.1X/G.2X/G.025X)を整理しましょう。Glue は試験全体の 2〜3 割の問題に何らかの形で登場します。
ファイルフォーマットとテーブルフォーマットの区別は重要です。Parquet/ORC/Avro はファイルフォーマット(列指向 vs 行指向、圧縮、スキーマ進化)、Apache Iceberg/Hudi/Delta Lake はテーブルフォーマット(ACID、time-travel、スキーマ進化、パーティション進化、UPSERT/DELETE 対応)と分けて理解してください。Athena・EMR・Redshift Spectrum・Glue がそれぞれどのテーブルフォーマットをネイティブにサポートするかも押さえましょう。
コスト最適化はあらゆる問題に関わります。Athena ではパーティショニング+列指向+圧縮でスキャン量を削減、ワークグループでデータスキャン量上限を設定、Redshift では Concurrency Scaling/RA3 マネージドストレージ/Redshift Serverless の RPU 単位課金、S3 では Intelligent-Tiering とライフサイクルによる Glacier 移行、を要件キーワードに即応できるようにしてください。
セキュリティは Lake Formation 中心で学習してください。S3 バケットポリシーと IAM、Lake Formation 権限の優先関係(より制限的なものが優先)、LF タグによる属性ベース制御、行レベル・カラムレベルセキュリティ、Glue / Athena / Redshift Spectrum / EMR との連携を整理し、KMS のエンベロープ暗号化、CloudTrail データイベント、Macie によるカスタム識別子検出と組み合わせて答えられるようにしましょう。