AWS学習ナビは誰でも利用できますか？

はい、広告付きですべての機能を無料でご利用いただけます。アカウント登録をすると学習履歴の保存やスマート出題機能が使えるようになります。

どのAWS認定試験に対応していますか？

SAA（ソリューションアーキテクトアソシエイト）、SAP（ソリューションアーキテクトプロフェッショナル）、DVA（デベロッパーアソシエイト）、CLF（クラウドプラクティショナー）など主要なAWS認定試験に対応しています。

問題はどのように生成されていますか？

Amazon BedrockのClaude（大規模言語モデル）とAWS公式ドキュメントを参照するナレッジベースを組み合わせてAIが作成しています。

Associate

Machine Learning Engineer Associate

試験概要

AWS Certified Machine Learning Engineer – Associate（MLA-C01）は、AWS 上で機械学習モデルを開発・デプロイ・運用する実務能力を評価する Associate レベルの認定試験です。Amazon SageMaker を中核に、データ前処理、モデル選定とトレーニング、推論エンドポイント設計、MLOps による継続的な改善サイクルまで、ML エンジニアに必要な技術領域を網羅的に問います。合格スコアは 720/1000、試験時間 130 分・65 問で構成され、4 ドメイン（Data Preparation 28%／ML Model Development 26%／Deployment & Orchestration 22%／Monitoring, Maintenance & Security 24%）から出題されます。旧 Machine Learning Specialty（MLS-C01）の後継的な位置付けですが、アルゴリズム理論よりも SageMaker サービスの実装判断と本番運用上のトレードオフ評価に比重が置かれている点が特徴です。生成 AI 寄りの AIP-C01 とは異なり、テーブルデータ・時系列・コンピュータビジョン・自然言語など ML 全般を扱います。

対象者・前提知識

本試験は、SageMaker を用いた ML パイプラインの設計・実装経験が 1 年以上ある ML エンジニア、データサイエンティスト、MLOps エンジニアを主な対象とします。Python（pandas / scikit-learn / NumPy）と機械学習の基礎（教師あり・教師なし学習、評価指標、過学習対策）に加え、IAM・VPC・S3・CloudWatch といった AWS 基盤サービスの実務経験が前提です。Cloud Practitioner や AI Practitioner（AIF-C01）取得後にステップアップしたいエンジニア、Solutions Architect Associate を取得済みで ML の専門性を加えたい方、データサイエンティストから ML プラットフォームへキャリアを広げたい方に最適です。本資格は本番運用に耐える ML システムを設計できることの公的な証明として、求人要件にも採用されつつあります。

ドメイン構成

データの準備

28%

Data Preparation では SageMaker Data Wrangler による 300 以上の組み込み変換、Quick Model 機能による即時的なベースライン精度確認、Processing Job への変換ロジックエクスポートを押さえます。Feature Store ではオンライン／オフラインストアの両方への二重書き込み、特徴量グループ設計、ポイントインタイム検索による Training-Serving Skew 抑制が要点です。Glue ETL／Athena／EMR と SageMaker Processing の使い分け、Ground Truth による人手ラベリングと Auto Labeling のしきい値設計、データ拡張（CV のフリップ・回転、NLP の back-translation）も学習しましょう。

MLモデルの開発

26%

ML Model Development では SageMaker 組み込みアルゴリズム選択基準が中心です。XGBoost＝表形式の分類／回帰、Linear Learner＝大規模線形モデル、K-Means＝クラスタリング、DeepAR＝確率的時系列予測、BlazingText＝テキスト分類と Word2Vec、Object2Vec＝汎用埋め込み、Image Classification／Object Detection＝CV、というマッピングを暗記します。Automatic Model Tuning は Bayesian と Hyperband の使い分け（Hyperband は早期終了で高速）、SageMaker Experiments による試行管理、Debugger の組み込みルール（vanishing_gradient／overfit／overtraining）、Clarify による事前学習バイアス（CI／DPL）と事後バイアス（DPPL／DI）の区別、JumpStart と BYOC の選択判断が問われます。

MLモデルのデプロイと運用

28%

Deployment & Orchestration では 4 推論方式の選択が最頻出です。Multi-Model Endpoint は同一フレームワーク・同一インスタンスで多数モデルを共有しコスト削減、Multi-Container Endpoint は異なるフレームワークの同居、Inference Pipeline は前処理→推論→後処理を 1 エンドポイントに連結、と整理します。SageMaker Pipelines の各ステップ（Processing／Training／Tuning／Evaluation／ConditionStep／RegisterModel／CreateModel／Transform）の依存関係、Model Registry の承認ベースデプロイ、本番バリアントによる A/B テストとシャドーテスト（本番トラフィックを複製して新モデルへ送る）の使い分けも理解しましょう。Step Functions による外部統合や Lambda／ECS／EKS でのカスタム推論も出題範囲です。

MLソリューションの監視と保守

18%

Monitoring, Maintenance & Security では Model Monitor の 4 モニター（Data Quality／Model Quality／Bias Drift／Feature Attribution Drift）について、ベースライン作成 → スケジュール → 違反検知 → CloudWatch アラーム → EventBridge → 再トレーニング Pipeline 起動、という連鎖を理解することが重要です。Endpoint Auto Scaling のターゲット追跡（SageMakerVariantInvocationsPerInstance）、Inference Recommender によるインスタンス選定、Spot トレーニング＋ Checkpointing、Managed Warm Pools、Savings Plans によるコスト削減も頻出です。セキュリティでは IAM ロール最小権限、KMS による S3／EBS／モデルアーティファクト暗号化、VPC エンドポイント（PrivateLink）と Network Isolation Mode、Studio の VPC Only モード、Model Cards による説明責任、CloudTrail による監査証跡を押さえてください。

出題傾向

Data Preparation（ドメイン 1、28%）が最大の比重を占めます。SageMaker Data Wrangler によるビジュアル前処理と組み込み変換、SageMaker Feature Store のオンライン／オフライン二層構造、SageMaker Processing ジョブによるスケーラブルな ETL、AWS Glue・Athena との連携が頻出です。欠損値処理、外れ値除去、カテゴリエンコーディング、データ拡張、クラス不均衡対策（SMOTE 等）といったオーソドックスな前処理判断も問われます。

ML Model Development（ドメイン 2、26%）では、SageMaker 組み込みアルゴリズム（XGBoost／Linear Learner／K-Means／DeepAR／BlazingText／Object2Vec）の使い分け、Automatic Model Tuning（Bayesian / Hyperband）、SageMaker Experiments による実験追跡、SageMaker Debugger による勾配・学習曲線の異常検知、SageMaker Clarify によるバイアス検出が重点テーマです。SageMaker JumpStart の事前学習済みモデル活用や BYOC（Bring Your Own Container）も出題されます。

Deployment & Orchestration（ドメイン 3、22%）では、リアルタイム推論／サーバーレス推論／非同期推論／バッチ変換の 4 つの推論方式の使い分け、Multi-Model Endpoint と Multi-Container Endpoint、SageMaker Pipelines を用いた CI/CD、Model Registry によるモデル承認フロー、本番バリアントを使った A/B テストやシャドーテストが頻出です。

Monitoring, Maintenance & Security（ドメイン 4、24%）では、SageMaker Model Monitor の 4 種類のモニター（Data Quality／Model Quality／Bias Drift／Feature Attribution Drift）、CloudWatch メトリクスとアラーム、ドリフト検出後の自動再トレーニング、IAM・KMS・VPC エンドポイントによるセキュリティ統制、コスト最適化（Spot トレーニング、Inference Recommender、Savings Plans）が頻出論点です。

学習のポイント

まず SageMaker のサービス群を「データ準備 → 学習 → 評価 → デプロイ → 監視 → 再学習」という ML ライフサイクルに沿って整理し、各フェーズで使う機能を 1 枚の表にマッピングしてください。SageMaker Pipelines がライフサイクル全体を束ねるオーケストレーターである、という俯瞰を持つだけで多くの問題に正答できるようになります。

推論方式の使い分けは試験の最頻出テーマです。リアルタイム（低レイテンシー・常時稼働、コスト高）／サーバーレス（間欠トラフィック、コールドスタート許容）／非同期（大ペイロード・最大 1GB、長時間処理 OK）／バッチ変換（大量データの一括処理、エンドポイント不要）の 4 つを、トラフィック特性・ペイロードサイズ・レイテンシー要件・コスト制約の 4 軸で選別できる訓練を積みましょう。

SageMaker Feature Store は「オンラインストア（低レイテンシーリアルタイム推論用、DynamoDB 系）」と「オフラインストア（S3 ベース、バッチトレーニング用）」の二層構造、特徴量グループ設計、TTL、ポイントインタイムクエリといった概念をセットで理解してください。学習時とサービング時の特徴量の食い違い（Training-Serving Skew）を防ぐ仕組みとしての位置付けが問われます。

MLOps はベースライン作成 → スケジュール監視 → アラーム → EventBridge → 再トレーニングという連鎖を Pipelines / Model Registry / Model Monitor で構築するパターンを暗記しましょう。Model Registry の承認ステータス（Approved / Rejected / Pending）に基づく自動デプロイも頻出です。

コストとセキュリティは横断テーマです。Spot インスタンスによる学習コスト最大 90% 削減、Managed Warm Pools による起動時間短縮、Inference Recommender によるインスタンス選定、KMS による保管時暗号化、VPC エンドポイント＋ Network Isolation Mode による外部通信遮断などを、要件キーワード（「PII を含む」「コスト最小」「VPC 内のみ」）から選択肢に落とし込めるようにしてください。

練習問題サンプル

本試験の出題傾向に沿って、AWS公式ドキュメントを基に作成し人が検証した代表的な問題と詳しい解説です。各試験ページでは、さらに多くの問題に挑戦できます。

ドメイン: データの準備

機械学習用のデータに含まれる欠損値の補完、外れ値処理、特徴量変換などの前処理を、コードを最小限にして視覚的に行いたい。Amazon SageMaker のどの機能が最適か。

AAmazon SageMaker Data Wrangler
BAmazon SageMaker Model Monitor
CAWS Lambda で全前処理を手書きする
DAmazon Athena

正解: A. Amazon SageMaker Data Wrangler

解説: SageMaker Data Wrangler は、データのインポート・可視化・欠損値補完・外れ値処理・特徴量エンジニアリングを GUI 中心で行え、300以上の組み込み変換を提供し、処理フローをパイプライン化して再利用できます。Model Monitor は本番モデルのデータドリフト監視、Athena は SQL 分析、Lambda 手書きはコード量・保守性の面で前処理の効率化要件に合いません。

ドメイン: MLモデルの開発

あるモデルが、トレーニングデータでは高い精度を出すが、検証データでは精度が著しく低い。この症状の名称と、代表的な対策の組み合わせとして最も適切なものはどれか。

Aアンダーフィッティング — モデルをさらに単純化する
Bオーバーフィッティング — 正則化・データ拡張・ドロップアウト等で汎化性能を高める
Cデータリーク — トレーニングを早期に打ち切る以外に手段はない
D勾配消失 — 学習率をゼロにする

正解: B. オーバーフィッティング — 正則化・データ拡張・ドロップアウト等で汎化性能を高める

解説: トレーニング精度が高く検証精度が低いのはオーバーフィッティング（過学習）の典型で、モデルが訓練データのノイズまで記憶し未知データに汎化できていない状態です。対策として、正則化（L1/L2）、ドロップアウト、データ拡張・データ追加、特徴量削減、早期終了（Early Stopping）などで汎化性能を高めます。アンダーフィッティングは逆に訓練精度も低い状態で対策が逆向き、勾配消失や学習率ゼロはこの症状の説明として誤りです。

ドメイン: MLモデルのデプロイと運用

学習済みモデルを、低レイテンシーで継続的にオンラインのリアルタイム推論として提供し、トラフィックに応じて自動スケールさせたい。最適な SageMaker のデプロイ方式はどれか。

ASageMaker バッチ変換（Batch Transform）
BSageMaker リアルタイム推論エンドポイント（オートスケーリング有効）
Cモデルを S3 に置くだけにする
DEC2 スポットインスタンスに手動配置する

正解: B. SageMaker リアルタイム推論エンドポイント（オートスケーリング有効）

解説: SageMaker のリアルタイム推論エンドポイントは、常時稼働の HTTPS エンドポイントで低レイテンシーのオンライン推論を提供し、ターゲット追跡のオートスケーリングでトラフィック変動に対応できます。バッチ変換は大量データのオフライン一括推論向けでリアルタイム要件に合わず、S3 配置だけでは推論サービスになりません。低頻度・断続的なトラフィックならサーバーレス推論、というように要件に応じた使い分けが問われます。

本記事およびサンプル問題は、AWS公式ドキュメントを基に作成し、運営者が編集・監修しています。詳しくは編集・品質管理方針をご覧ください。