試験ガイド / Machine Learning Engineer Associate
Associate

Machine Learning Engineer Associate

試験概要

AWS Certified Machine Learning Engineer – Associate(MLA-C01)は、AWS 上で機械学習モデルを開発・デプロイ・運用する実務能力を評価する Associate レベルの認定試験です。Amazon SageMaker を中核に、データ前処理、モデル選定とトレーニング、推論エンドポイント設計、MLOps による継続的な改善サイクルまで、ML エンジニアに必要な技術領域を網羅的に問います。合格スコアは 720/1000、試験時間 130 分・65 問で構成され、4 ドメイン(Data Preparation 28%/ML Model Development 26%/Deployment & Orchestration 22%/Monitoring, Maintenance & Security 24%)から出題されます。旧 Machine Learning Specialty(MLS-C01)の後継的な位置付けですが、アルゴリズム理論よりも SageMaker サービスの実装判断と本番運用上のトレードオフ評価に比重が置かれている点が特徴です。生成 AI 寄りの AIP-C01 とは異なり、テーブルデータ・時系列・コンピュータビジョン・自然言語など ML 全般を扱います。

対象者・前提知識

本試験は、SageMaker を用いた ML パイプラインの設計・実装経験が 1 年以上ある ML エンジニア、データサイエンティスト、MLOps エンジニアを主な対象とします。Python(pandas / scikit-learn / NumPy)と機械学習の基礎(教師あり・教師なし学習、評価指標、過学習対策)に加え、IAM・VPC・S3・CloudWatch といった AWS 基盤サービスの実務経験が前提です。Cloud Practitioner や AI Practitioner(AIF-C01)取得後にステップアップしたいエンジニア、Solutions Architect Associate を取得済みで ML の専門性を加えたい方、データサイエンティストから ML プラットフォームへキャリアを広げたい方に最適です。本資格は本番運用に耐える ML システムを設計できることの公的な証明として、求人要件にも採用されつつあります。

ドメイン構成

データの準備
28%
Data Preparation では SageMaker Data Wrangler による 300 以上の組み込み変換、Quick Model 機能による即時的なベースライン精度確認、Processing Job への変換ロジックエクスポートを押さえます。Feature Store ではオンライン/オフラインストアの両方への二重書き込み、特徴量グループ設計、ポイントインタイム検索による Training-Serving Skew 抑制が要点です。Glue ETL/Athena/EMR と SageMaker Processing の使い分け、Ground Truth による人手ラベリングと Auto Labeling のしきい値設計、データ拡張(CV のフリップ・回転、NLP の back-translation)も学習しましょう。
MLモデルの開発
26%
ML Model Development では SageMaker 組み込みアルゴリズム選択基準が中心です。XGBoost=表形式の分類/回帰、Linear Learner=大規模線形モデル、K-Means=クラスタリング、DeepAR=確率的時系列予測、BlazingText=テキスト分類と Word2Vec、Object2Vec=汎用埋め込み、Image Classification/Object Detection=CV、というマッピングを暗記します。Automatic Model Tuning は Bayesian と Hyperband の使い分け(Hyperband は早期終了で高速)、SageMaker Experiments による試行管理、Debugger の組み込みルール(vanishing_gradient/overfit/overtraining)、Clarify による事前学習バイアス(CI/DPL)と事後バイアス(DPPL/DI)の区別、JumpStart と BYOC の選択判断が問われます。
MLモデルのデプロイと運用
28%
Deployment & Orchestration では 4 推論方式の選択が最頻出です。Multi-Model Endpoint は同一フレームワーク・同一インスタンスで多数モデルを共有しコスト削減、Multi-Container Endpoint は異なるフレームワークの同居、Inference Pipeline は前処理→推論→後処理を 1 エンドポイントに連結、と整理します。SageMaker Pipelines の各ステップ(Processing/Training/Tuning/Evaluation/ConditionStep/RegisterModel/CreateModel/Transform)の依存関係、Model Registry の承認ベースデプロイ、本番バリアントによる A/B テストとシャドーテスト(本番トラフィックを複製して新モデルへ送る)の使い分けも理解しましょう。Step Functions による外部統合や Lambda/ECS/EKS でのカスタム推論も出題範囲です。
MLソリューションの監視と保守
18%
Monitoring, Maintenance & Security では Model Monitor の 4 モニター(Data Quality/Model Quality/Bias Drift/Feature Attribution Drift)について、ベースライン作成 → スケジュール → 違反検知 → CloudWatch アラーム → EventBridge → 再トレーニング Pipeline 起動、という連鎖を理解することが重要です。Endpoint Auto Scaling のターゲット追跡(SageMakerVariantInvocationsPerInstance)、Inference Recommender によるインスタンス選定、Spot トレーニング+ Checkpointing、Managed Warm Pools、Savings Plans によるコスト削減も頻出です。セキュリティでは IAM ロール最小権限、KMS による S3/EBS/モデルアーティファクト暗号化、VPC エンドポイント(PrivateLink)と Network Isolation Mode、Studio の VPC Only モード、Model Cards による説明責任、CloudTrail による監査証跡を押さえてください。

出題傾向

Data Preparation(ドメイン 1、28%)が最大の比重を占めます。SageMaker Data Wrangler によるビジュアル前処理と組み込み変換、SageMaker Feature Store のオンライン/オフライン二層構造、SageMaker Processing ジョブによるスケーラブルな ETL、AWS Glue・Athena との連携が頻出です。欠損値処理、外れ値除去、カテゴリエンコーディング、データ拡張、クラス不均衡対策(SMOTE 等)といったオーソドックスな前処理判断も問われます。

ML Model Development(ドメイン 2、26%)では、SageMaker 組み込みアルゴリズム(XGBoost/Linear Learner/K-Means/DeepAR/BlazingText/Object2Vec)の使い分け、Automatic Model Tuning(Bayesian / Hyperband)、SageMaker Experiments による実験追跡、SageMaker Debugger による勾配・学習曲線の異常検知、SageMaker Clarify によるバイアス検出が重点テーマです。SageMaker JumpStart の事前学習済みモデル活用や BYOC(Bring Your Own Container)も出題されます。

Deployment & Orchestration(ドメイン 3、22%)では、リアルタイム推論/サーバーレス推論/非同期推論/バッチ変換の 4 つの推論方式の使い分け、Multi-Model Endpoint と Multi-Container Endpoint、SageMaker Pipelines を用いた CI/CD、Model Registry によるモデル承認フロー、本番バリアントを使った A/B テストやシャドーテストが頻出です。

Monitoring, Maintenance & Security(ドメイン 4、24%)では、SageMaker Model Monitor の 4 種類のモニター(Data Quality/Model Quality/Bias Drift/Feature Attribution Drift)、CloudWatch メトリクスとアラーム、ドリフト検出後の自動再トレーニング、IAM・KMS・VPC エンドポイントによるセキュリティ統制、コスト最適化(Spot トレーニング、Inference Recommender、Savings Plans)が頻出論点です。

学習のポイント

まず SageMaker のサービス群を「データ準備 → 学習 → 評価 → デプロイ → 監視 → 再学習」という ML ライフサイクルに沿って整理し、各フェーズで使う機能を 1 枚の表にマッピングしてください。SageMaker Pipelines がライフサイクル全体を束ねるオーケストレーターである、という俯瞰を持つだけで多くの問題に正答できるようになります。

推論方式の使い分けは試験の最頻出テーマです。リアルタイム(低レイテンシー・常時稼働、コスト高)/サーバーレス(間欠トラフィック、コールドスタート許容)/非同期(大ペイロード・最大 1GB、長時間処理 OK)/バッチ変換(大量データの一括処理、エンドポイント不要)の 4 つを、トラフィック特性・ペイロードサイズ・レイテンシー要件・コスト制約の 4 軸で選別できる訓練を積みましょう。

SageMaker Feature Store は「オンラインストア(低レイテンシーリアルタイム推論用、DynamoDB 系)」と「オフラインストア(S3 ベース、バッチトレーニング用)」の二層構造、特徴量グループ設計、TTL、ポイントインタイムクエリといった概念をセットで理解してください。学習時とサービング時の特徴量の食い違い(Training-Serving Skew)を防ぐ仕組みとしての位置付けが問われます。

MLOps はベースライン作成 → スケジュール監視 → アラーム → EventBridge → 再トレーニングという連鎖を Pipelines / Model Registry / Model Monitor で構築するパターンを暗記しましょう。Model Registry の承認ステータス(Approved / Rejected / Pending)に基づく自動デプロイも頻出です。

コストとセキュリティは横断テーマです。Spot インスタンスによる学習コスト最大 90% 削減、Managed Warm Pools による起動時間短縮、Inference Recommender によるインスタンス選定、KMS による保管時暗号化、VPC エンドポイント+ Network Isolation Mode による外部通信遮断などを、要件キーワード(「PII を含む」 「コスト最小」 「VPC 内のみ」)から選択肢に落とし込めるようにしてください。