エラー分析:エラーの背景にあるイベントを調べる
エラー分析:エラーの背景にあるイベントを調べる

エラー分析:エラーの背景にあるイベントを調べる

エラー分析:エラーの背景にあるイベントを調べる

New Relic APMのエラー分析機能はNew Relicエージェントバージョン選択した期間によって、下記どちらかを提供します:

  • 過去8日間におけるエラー情報の詳細な調査を、グループ分けおよびフィルターによって行うイベント表示
  • 過去8日間以外、もしくはそれを超過する任意の期間におけるエラー率情報の概要を提供するメトリクス表示

この機能へのアクセス可否はサブスクリプションレベルに依存します。

エラー報告における上限

New Relicのエラー報告の上限は1エージェントインスタンスにおいて、1分あたり100イベントです。これはエラー報告がアプリケーションパフォーマンスにネガティブな影響を与えないように設けられています。エラー率がこの上限を超える場合、New Relicは全てのエラーを記録することができず、エラーが多すぎますというバナーメッセージがエラー分析ページに表示されます。

【例:】

  • 5ホスト間で作動するアプリ:New Relicは分ごとに100イベントというエラー報告の上限を設けています x 5インスタンス = 500イベント/分です。

  • 1つのホスト上で5インスタンスで作動するアプリ:New Relicは分ごとに100イベントというエラーレポーティングの上限を設けています x 10インスタンス = 1000イベント/分です。

 

エラー分析ページを表示する

エラー分析ページを表示するには:

  • rpm.newrelic.comから、 APM > アプリケーション > (選択したアプリ)> イベント > エラー分析を選択します。

もしくは

  • rpm.newrelic.comから、 APM > アプリケーション > (選択したアプリ)> モニタリング > 概要を選択し、エラー率表のタイトルを選択します。

New Relicの標準ページ機能を使い、詳細情報のドリルダウンを実施しましょう。


APM > アプリケーション > (選択したアプリ) > イベント > エラー分析:エラー率チャートは常に全てのエラーの割合と数を表示します。更にドリルダウンするには、トップ5エラーチャートのグルーピングとフィルターオプションを使用します。これはアラート状態にあるアプリの例です。(警告しきい値に達すると、チャートの背景が薄いピンクに変わり、重大状態になると濃いピンクに変わります。)また、エラートレース表とエラー頻度ヒートマップを使い、特定のエラーの詳細や一定期間での傾向を調べることも可能です。

 

エラーデータの期間を選択する

エラー分析イベント表示とタイムピッカーを使い、過去1週間に発生したエラーイベントの詳細を調べることができます。エラーイベント表示では過去8日間にわたって収集されたデータを、最大7日間のウィンドウにて利用可能です。

時間ウィンドウがいますぐ終了である場合、数に微小な差があるかもしれません。これは一覧の数と表の数が、ページの自動リフレッシュにより、多少異なる時間にてリクエストされているからです。

 

エラーイベント表示ワークフローを使用する

これはエラー分析イベント表示に表示された情報をどうやって最大限に活用するか説明するための基本的なワークフローです。
はじめに、エラー率チャートにて、一般的なエラーでの予期せぬスパイクや落ち込み、パターンがないか確認します。
トップ5エラーチャート上の任意の一般的なパターンを、同期間内に発生したアラートと関連付けます。グループやフィルターを使い、エラーイベントや属性をより詳細に調べます。また、エラーメッセージもしくはトランザクション名のパターンを探します。
関連のあるホスト、ユーザー、フレームワークコード、カスタム属性といった特定のスタックトレース詳細を含むエラートレース情報を調べ、共有します。
選択したグルーピング(ホスト、エラーメッセージ、ヒートマップ、カスタム属性等)での特定時間におけるエラー頻度ヒートマップ上のエラーパターンを特定します。

 

エラー率チャート:パターンを迅速に見つける
はじめに、エラー率チャートにて、一般的なエラーに予期せぬスパイクや落ち込み、パターンがあるか確認しましょう。例えば、最近のデプロイメントの前後にスパイクはあったでしょうか?選択した期間を変更し、他の過去のパターンを探してみるといいかもしれません。
このチャートはページの他の部分をフィルターしている時でも、常に全体のエラー率と選択した期間内のエラー数を表示します。特定のタイプのエラーにフォーカスしたい場合は、トップ5エラーチャートもしくはエラートレースを利用しましょう。

APM > アプリケーション > (選択したアプリ) > イベント > エラー分析:これはイベント表示例です。エラー率チャートは常に全てのエラーの割合と数を表示します。更にドリルダウンするには、トップ5エラーチャートのグルーピングやフィルターオプションを使用するか、エラートレースエラー頻度データを調べましょう。
トップ5エラー:アラートもしくはInsightsイベントに関連づける
トップ5エラーチャートを使い、エラー率チャートと同期間内にどのようなエラータイプが発生したか、またいくつのエラーが発生したか特定しましょう。例えば:
エラースパイクは特定のクラスに関連していますか?
トップエラーは最近実環境で稼働を開始した新しいホストによるものですか?
トップ エラー メッセージは、組織の特定の地域にあるホストが原因で失敗した接続に関するものが多いですか?
チャート背景はアラート状態を知らせるために色が変更されましたか?(薄いピンクはアラート状態の警告しきい値を、濃いピンクは重大なしきい値であることを示します。)

APM > アプリケーション > (選択したアプリ) > イベント > エラー分析:404エラーに関連する傾向をフィルターし探すために、HTTP応答コードでグルーピングし、HTTP応答コード一覧から404を選択した例です。エラー率チャートはまだ全てのエラーを表示していますが、トップ5エラーチャートでは同期間内の404エラーのみを表示しています。
目的 手順
「トップ5」の選択を変更する デフォルトでは、トップ5エラーチャートはクラス別のトップ5エラーを表示します。エラーメッセージ、ホスト、トランザクション名といった他の属性でフィルターおよびグループ分けする場合、もしくは任意のカスタム属性を選択する場合は、検索ウィンドウを使うかグルーピングリストへ戻るを選択します。
Insightsのエラーデータを調べる、もしくは共有する トップ5エラーチャートは、New RelicInsightsエラー イベント デフォルト属性ならびに、このイベントタイプに追加された任意のカスタム属性を使用します。トップ5エラーデータの詳細を調べる、もしくは他者と共有するには、チャートの下にカーソルを合わせた際表示されるクエリを表示するもしくはInsightsで表示するリンクを選択します。

 

エラートレース:スタックトレース、フレームワークコードやその他の詳細を確認する
2つのチャートに加えて、エラートレース表はエラーをトランザクション名やエラークラスごとにグループ分けし、関連するエラートレースとリンクします。

APM > アプリケーション > (選択したアプリ) > イベント > エラー分析:任意のエラートレース表の列でのソート順を変更すると、パターンをより迅速に見つけることが可能になります。これはエラーメッセージ別にソート順を変更した例です。これにより、迅速に『実行の有効期限が切れました』というメッセージのパターンを特定できました。
各行は、下記のような疑問に対する答えを提供します:
  • このトランザクションまたはクラスは、選択した期間内においていくつ発生しましたか?
  • 最新のエラーメッセージは何ですか?
  • 最初に発生したのはいつで、最後に発生したのはいつですか?
時に、エラー トレース データを最も低いものから高いものまで調べることは非常に有効です。例えば:
  • どのエラーが一番発生頻度が低いですか?
  • 特定のエラーが発生しなくなったのはいつですか(最後の発生)?
ソート順やフィルターオプションを変更し、チームにとって一番インパクトのあるタイプのエラーにフォーカスすることが可能です。また、エラートレース表からスタックトレースとフレームワークコード、関連するトランザクションを調べる、チケットを発行する、その他をドリルダウンすることも可能です。

 

エラー頻度:特定期間における数を比較する
特定期間内の、特定のカテゴリーでのエラー数やトレースを調べるには、グルーピングリストへ戻るから任意の属性を選択します。例えば、ホスト間でのエラー数を比較するには、ホストをグルーピングとして選択し、個別のホストごとにフィルターし、そのエラートレースのみを確認します。

APM > アプリケーション > (選択したアプリ) > イベント > エラー分析:これは過去7日間にわたるエラーメッセージ別にグルーピングされたエラー頻度ヒートマップの例です。色が濃いほど、その期間内で多くのエラーが発生したということを示しています。
色付けされたヒートマップにより、パターンの特定がしやすくなります:色が濃いほど、多くのエラーがその期間内に発生したということです。更に調べるには、ヒートマップの任意のエリアを選択し、次のような詳細を表示します:
  • 全体数
  • 作成されたトレース数
  • 期間
  • エラートレース詳細

エラーメトリクス表示を利用する

エラーメトリクス表示を使い、特定期間内でのアプリケーションのエラー傾向を分析しましょう。エラーイベント表示にアクセス権のないアカウント、エージェント、時間ウィンドウにおいてもメトリクス表示は利用可能です
エラーメトリクス表示は下記のコンポーネントを含みます:

  • 特定時間ウィンドウにおける、トランザクション名別トップ5エラーの頻度チャート
  • 全てのエラー率とアラートおよびデプロイメントマーカー状況を表示し、追加のコンテキストを提供するアプリケーション概要メトリクス
  • 選択した期間における最近のエラートレースの一覧


APM > アプリケーション > (選択したアプリ) > イベント > エラー分析:これは選択した7日間におけるデータを表示するメトリクス表示の例です。デプロイメントマーカーは、エラーのスパイクや落ち込みを特定するのに便利です。

 

関連情報

追加のドキュメンテーションリソースは次のとおりです。

  • エラー分析:相互性と要件(イベントやメトリクス表示、エージェントバージョン、データ保持、エラーレポーティングの上限といった、New Relicのエラー分析機能を使用するための要件)
  • エラー分析:エラートレースを管理する(表示、トレース情報の共有、無効化、エラートレースの削除)
  • Insightsのエラー イベント デフォルト属性(エラーイベントのためにキャプチャされた属性の一覧)
  • カスタム属性を収集する(全てのトランザクショントレース、ブラウザートレース、エラー記録での標準HTTP属性とカスタム属性のキャプチャと表示)

New Relic オンラインテクニカルコミュニティー での New Relic APMに関するディスカッションにぜひご参加ください ! テクニカルコミュニティーはNew Relicツールセットについて議論し、トラブルシューティングを行うための公開プラットフォームです。

PROプランのすべての機能を
14日間無料でお試し

新規無料登録いただくとPROプランのすべての機能を
14日間無料でお試しいただけます。
クレジットカードなど決済情報の登録は不要です。

各プランの詳細はこちらからご確認ください。