KINTO Tech Blog
NewRelic

AWS DevOps Agent とNew Relicを連携して障害調査の自動化がどこまでできるか検証

Cover Image for AWS DevOps Agent とNew Relicを連携して障害調査の自動化がどこまでできるか検証

はじめに

この記事は New Relic Advent Calendar 2025 20日目の記事です。

こんにちは、KINTOテクノロジーズ(以下KTC)SREチームの手﨑です。
本記事では、先日のAWS re:Invent 2025で発表されたAWS DevOps Agentと、普段KTCで利用しているNew Relicを連携させて、障害調査をどこまで自動化できるのか検証した結果をご紹介します。

注意事項

  • AWS DevOps Agentは本記事執筆時点(2025年12月)ではプレビュー版です。
  • GA(一般提供)までに仕様が変更される可能性があります。

AWS DevOps Agent とNew Relicの連携

AWS DevOps Agent とは

AWS DevOps Agentは、インシデントを解決、予防し、信頼性とパフォーマンスを継続的に向上させるフロンティアエージェントです。詳細は以下の公式ページをご覧ください。

AWS DevOps Agent

特徴的な点はCapabilitiesという設定で、DevOps Agentが扱える情報(能力)を拡張できることです。
今回もこのCapabilitiesを利用してNew Relic MCP経由で障害調査を行います。
他にもCapabilitiesには以下のような設定が可能です。

  • Cloud
    • 他のAWSアカウントのリソースへのアクセス
  • Telemetry
    • オブザーバビリティSaaSのテレメトリーデータへのアクセス
  • Pipeline
    • ソースコードが管理されているリポジトリやデプロイパイプラインの情報へのアクセス
  • Communications
    • Slackなどのコミュニケーションツールとの連携
  • MCP Server
    • MCPサーバーを使った情報の収集
  • Webhook
    • Webhook経由でのサードパーティ製アプリケーションやサービスへのアクセス

アーキテクチャ図

New Relic との連携方法

AWS DevOps Agentの初期設定

  • AWS DevOps Agentの初期設定はエージェントスペースの作成から始まり、Roleの作成などが必要ですが、ここではNew Relicとの連携設定の箇所に絞って記載します。
  • 以下のページにあるようにTelemetryの設定にNew Relicを追加することでNew RelicからAWS DevOps Agentを実行するためのwebhook URLを取得できます。
  • この設定により、New Relic remote MCP も利用されるようになります。

Telemetryの設定

  1. AWS DevOps AgentのSettingsから「Telemetry」-「New Relic」を選択します。
  2. New RelicのaccountIDとAPIキーを入力し、Regionを選択します。
  3. webhook URLとsecret keyが発行されるため、保存しておきます。

Telemetry画面

  1. エージェントスペースを選択し、「Capabilities」タブから「Telemetry Sources」に「New Relic Server」
    を追加します。

Telemetry Sources画面

New Relicのアラートの設定

  • New RelicのアラートからAWS DevOps Agentをwebhookで起動するために、New RelicのDestinationsとWorkflowの設定を行います。

  • Destinationsの設定

    1. New Relicの「Alerts」から「Destinations」を選択し、「Add a destination」から「Webhook」を選択します。
    2. 「Name」に任意の名前を入力し、以下のとおり設定値を入力します。
      Name: New Relic Webhook
      Endpoint URL: https://event-ai.us-east-1.api.aws/webhook/generic/******  //Telemetryの設定の発行画面で発行されたURL
      Authorization: Bearer
      Authorization Value: ******  //Telemetryの設定の発行画面で発行されたsecret key
      
    3. 設定を保存します。
  • Workflowの設定

    1. New Relicの「Alerts」から「Workflows」を選択し、「Add a workflow」から新しいWorkflowを作成します。(もしくは既存のWorkflowに対して設定を追加します)
    2. NotifyのAdd channelからWebhookを選択し、「Destinationsの設定」で追加したDestinationを選択します。
    3. PayloadのTemplateに以下の内容を入力します。
      {
        "eventType": "incident",
        "incidentId": {{ json incidentIds.[0] }},
        "action": "created",
        "priority": {{ json priority }},
        "title": {{ json annotations.title.[0] }},
        "description": {{ json state }},
        "service":  {{json entitiesData.names.[0]}},
        "timestamp": {{#timezone activatedAt 'Asia/Tokyo'}}{{/timezone}}
      }
      

以上でAWS DevOps AgentとNew Relicの連携設定は完了です。

実際に試した結果

実際にNew RelicのアラートからAWS DevOps Agentをwebhookで起動してみます。

連携の流れ

  • 実際に連携を試した際の流れは以下の通りです。

    1. New RelicのアラートからAWS DevOps Agentへwebhookする

      • New Relicでアラートが発生すると、AWS DevOps Agent に webhook が送信されます
    2. AWS DevOps AgentからNew Relicのテレメトリを取得して分析する

      • AWS DevOps Agentは自律的にNew RelicのMCP経由でテレメトリデータの取得を繰り返し、分析を行います
    3. 同時にAWSリソース内も調査する

      • New Relicのテレメトリ分析と並行して、AWSリソースの状態も調査します
    4. Root Causeレポートが生成される

      • 分析結果を基に、根本原因(Root Cause)レポートが自動生成されます
    5. 修正案の計画を指示できる

      • 生成されたレポートを基に、修正案の計画を指示することができます

調査結果

  • 調査状況をweb appから確認すると以下のような結果となります(表示しているものはサンプルのアプリケーションです)
    • New Relic MCPを利用してアラートに関する情報を取得しています。
      NRQL Sample
    • 今回のアラートはサンプルアプリケーションのため必ずエラーが発生する作りであることを Root Cause として結論付けられています。
      Root Cause
    • 追加の調査として直近のデプロイとアラートの発生に関連性があるか確認してもらいました。
      • AWS側の調査により、Fargate Spotのプロビジョニング遅延によって起動が遅れたことと、直近でデプロイが実施されていないことが報告されました。
        Deploy

結果

  • New RelicのアラートをトリガーにAWS DevOps Agentをwebhookで起動し、MCP経由で取得したNew RelicのテレメトリとAWSリソース情報を組み合わせて自動調査させるところまで確認できました。
  • AWS DevOps Agentのweb appは対話形式で追加の調査を行うことができ、AWSリソースの直接参照とNew Relicのテレメトリ分析の両方を自律的に実施してくれるため、他の連携先が増えても柔軟に対応することができそうです。

まとめ

本記事では、AWS DevOps AgentとNew Relicを連携させて障害調査の自動化を試しました。

New RelicのアラートをトリガーにAWS DevOps Agentをwebhookで起動し、MCP経由で取得したNew RelicのテレメトリとAWSリソース情報を組み合わせて分析することで、自律的にRoot Causeレポートを生成できることを確認しました。プレビュー段階ではありますが、障害発生時の初期調査を自動化できる点は非常に価値があると感じています。

また、今回は試していませんが、将来のインシデントを予防するPrevention機能を利用すれば、New Relic MCP経由でAPMの情報を参照してパフォーマンスチューニングのような改善サイクルにも活用できると考えています。

引き続きGA版の様子も見ながら検証していきたいと思います。

以上です。

Facebook

関連記事 | Related Posts

We are hiring!

【クラウドエンジニア】Cloud Infrastructure G/東京・大阪・福岡

KINTO Tech BlogWantedlyストーリーCloud InfrastructureグループについてAWSを主としたクラウドインフラの設計、構築、運用を主に担当しています。

【クラウドプラットフォームエンジニア】プラットフォームG/東京・大阪・福岡

プラットフォームグループについてAWS を中心とするインフラ上で稼働するアプリケーション運用改善のサポートを担当しています。

イベント情報