Machine Learning Engineer Associate
試験概要
AWS Certified Machine Learning Engineer – Associate(MLA-C01)は、AWS 上で機械学習モデルを開発・デプロイ・運用する実務能力を評価する Associate レベルの認定試験です。Amazon SageMaker を中核に、データ前処理、モデル選定とトレーニング、推論エンドポイント設計、MLOps による継続的な改善サイクルまで、ML エンジニアに必要な技術領域を網羅的に問います。合格スコアは 720/1000、試験時間 130 分・65 問で構成され、4 ドメイン(Data Preparation 28%/ML Model Development 26%/Deployment & Orchestration 22%/Monitoring, Maintenance & Security 24%)から出題されます。旧 Machine Learning Specialty(MLS-C01)の後継的な位置付けですが、アルゴリズム理論よりも SageMaker サービスの実装判断と本番運用上のトレードオフ評価に比重が置かれている点が特徴です。生成 AI 寄りの AIP-C01 とは異なり、テーブルデータ・時系列・コンピュータビジョン・自然言語など ML 全般を扱います。
対象者・前提知識
本試験は、SageMaker を用いた ML パイプラインの設計・実装経験が 1 年以上ある ML エンジニア、データサイエンティスト、MLOps エンジニアを主な対象とします。Python(pandas / scikit-learn / NumPy)と機械学習の基礎(教師あり・教師なし学習、評価指標、過学習対策)に加え、IAM・VPC・S3・CloudWatch といった AWS 基盤サービスの実務経験が前提です。Cloud Practitioner や AI Practitioner(AIF-C01)取得後にステップアップしたいエンジニア、Solutions Architect Associate を取得済みで ML の専門性を加えたい方、データサイエンティストから ML プラットフォームへキャリアを広げたい方に最適です。本資格は本番運用に耐える ML システムを設計できることの公的な証明として、求人要件にも採用されつつあります。
ドメイン構成
出題傾向
Data Preparation(ドメイン 1、28%)が最大の比重を占めます。SageMaker Data Wrangler によるビジュアル前処理と組み込み変換、SageMaker Feature Store のオンライン/オフライン二層構造、SageMaker Processing ジョブによるスケーラブルな ETL、AWS Glue・Athena との連携が頻出です。欠損値処理、外れ値除去、カテゴリエンコーディング、データ拡張、クラス不均衡対策(SMOTE 等)といったオーソドックスな前処理判断も問われます。
ML Model Development(ドメイン 2、26%)では、SageMaker 組み込みアルゴリズム(XGBoost/Linear Learner/K-Means/DeepAR/BlazingText/Object2Vec)の使い分け、Automatic Model Tuning(Bayesian / Hyperband)、SageMaker Experiments による実験追跡、SageMaker Debugger による勾配・学習曲線の異常検知、SageMaker Clarify によるバイアス検出が重点テーマです。SageMaker JumpStart の事前学習済みモデル活用や BYOC(Bring Your Own Container)も出題されます。
Deployment & Orchestration(ドメイン 3、22%)では、リアルタイム推論/サーバーレス推論/非同期推論/バッチ変換の 4 つの推論方式の使い分け、Multi-Model Endpoint と Multi-Container Endpoint、SageMaker Pipelines を用いた CI/CD、Model Registry によるモデル承認フロー、本番バリアントを使った A/B テストやシャドーテストが頻出です。
Monitoring, Maintenance & Security(ドメイン 4、24%)では、SageMaker Model Monitor の 4 種類のモニター(Data Quality/Model Quality/Bias Drift/Feature Attribution Drift)、CloudWatch メトリクスとアラーム、ドリフト検出後の自動再トレーニング、IAM・KMS・VPC エンドポイントによるセキュリティ統制、コスト最適化(Spot トレーニング、Inference Recommender、Savings Plans)が頻出論点です。
学習のポイント
まず SageMaker のサービス群を「データ準備 → 学習 → 評価 → デプロイ → 監視 → 再学習」という ML ライフサイクルに沿って整理し、各フェーズで使う機能を 1 枚の表にマッピングしてください。SageMaker Pipelines がライフサイクル全体を束ねるオーケストレーターである、という俯瞰を持つだけで多くの問題に正答できるようになります。
推論方式の使い分けは試験の最頻出テーマです。リアルタイム(低レイテンシー・常時稼働、コスト高)/サーバーレス(間欠トラフィック、コールドスタート許容)/非同期(大ペイロード・最大 1GB、長時間処理 OK)/バッチ変換(大量データの一括処理、エンドポイント不要)の 4 つを、トラフィック特性・ペイロードサイズ・レイテンシー要件・コスト制約の 4 軸で選別できる訓練を積みましょう。
SageMaker Feature Store は「オンラインストア(低レイテンシーリアルタイム推論用、DynamoDB 系)」と「オフラインストア(S3 ベース、バッチトレーニング用)」の二層構造、特徴量グループ設計、TTL、ポイントインタイムクエリといった概念をセットで理解してください。学習時とサービング時の特徴量の食い違い(Training-Serving Skew)を防ぐ仕組みとしての位置付けが問われます。
MLOps はベースライン作成 → スケジュール監視 → アラーム → EventBridge → 再トレーニングという連鎖を Pipelines / Model Registry / Model Monitor で構築するパターンを暗記しましょう。Model Registry の承認ステータス(Approved / Rejected / Pending)に基づく自動デプロイも頻出です。
コストとセキュリティは横断テーマです。Spot インスタンスによる学習コスト最大 90% 削減、Managed Warm Pools による起動時間短縮、Inference Recommender によるインスタンス選定、KMS による保管時暗号化、VPC エンドポイント+ Network Isolation Mode による外部通信遮断などを、要件キーワード(「PII を含む」 「コスト最小」 「VPC 内のみ」)から選択肢に落とし込めるようにしてください。