2023年12月25日
JENNIFERリアルタイム異常検知
JENNIFERのリアルタイム異常検知機能は急激な負荷や、性能低下の状況下で自動アラートを提供します。そのために5つのメトリックス(応答時間、アクティブサービス、同時ユーザ数、システムCPU使用率(%)、システムメモリ使用率(%))データを選定して持続的にモニタリングします。
Q1. 異常検知(anomaly detection)とは?
あるデータを他の測定値と他の方法で検知された値と比較し異常と判断するデータ分析法です。適切な基準値を基に異常な状況を事前に検知しアラートを発出して、根本原因を解決し事前に準備することが異常検知の目的です。
Q2. 異常検知はどのように活用されていますか?
一般的に株の取引でリアルタイムに急騰落する銘柄を検索したり、クラウド利用時にコストが想定を超えたことを認知してアラートを発出するなど多様な分野で多くの事例があります。
Q3. システムモニタリング分野ではどうですか?
システムモニタリング分野では異常検知は長年の課題です。APMでも正常の時と異なる状況を検知して性能低下或は障害に対応するような技術が発展して来ました。
Q4. JENNIFERでの異常検知とは?
JENNIFERで異常検知は明示的ではありませんが、以下の2つの方法をサポートしてきました。
- メトリックスイベント:メトリックスが絶対値(特定値)より高い時と低い時に発生(例:ディスク使用量が80%以上の場合にアラート発出)
- 比較イベント:メトリックスを過去の特定時点と比較して差が大きい時に発生(例:1日の訪問ユーザ数が先週と同じ曜日より10%低い場合にアラート発出)
Q5. 新たに開発されたJENNIFERリアルタイム異常検知とは?
JENNIFERリアルタイム異常検知は上の二つの異常検知とは異なり、正常/異常状態をシステムが予測する方法です。メトリックスに、予測した範囲を逸脱する急激な変化(急激な負荷、性能低下)が現れる時に自動でアラートを発出します。そのために5つの主要メトリックス(応答時間、アクティブサービス、同時ユーザ数、システムCPU使用率(%)、システムメモリ使用率(%))データを持続的にモニタリングします。
メトリックスイベントや比較イベントはメトリックスの変化をキャッチするのは難しいですが、同時ユーザ数、アクティブサービス数、応答時間、CPU/メモリ使用率はリアルタイムなメトリックスモニタリングに適合しています。
・アクティブサービスに異常検知上限ルールを設定 ➡ 急激なユーザアクセスや、DDoS検知ができます。
・システムCPU使用率下限ルールを設定 ➡ インスタンスの急激な終了検知ができます。
Q6. 更に注目すべきポイントは?
2つあります。
1つは、イベントを発生させることだけではなく、下の図にあるようにアラートで詳細分析ができるポップアップが追加されました。最新1分間のメトリックスの変化と呼び出されたアプリケーションリストを表示します。
もう1つのポイントは、メトリックスの基準値を基に変化を検知するため、デフォルト値のレベルがどの程度なのか、ユーザが事前に把握する必要がないため、設定が簡単です。
適正な正常範囲の設定では、設定画面で「適正値を求める」というシミュレーション機能を提供しています。