サーバー監視とアラート設計の基本

HOME > 技術ドキュメント > サーバー監視とアラート設計の基本

執筆：株式会社エスロジカル（Webシステム受託開発・インフラ構築・運用改善）

「監視はしているが、アラートが多すぎて見なくなった」「障害をユーザーから教えてもらった」という運用現場は少なくありません。
監視設計で重要なのは「何でも監視する」ではなく、「何が起きたら誰が何をするか」を設計することです。本記事では、Webシステムの監視設計とアラートの考え方を整理します。

監視を「死活監視・メトリクス監視・ログ監視」の 3 層に整理すると設計が明確になります。

層	対象・方法	代表的なツール
死活監視	サービスが HTTP レスポンスを返しているか	UptimeRobot、Zabbix、外形監視サービス
メトリクス監視	CPU・メモリ・ディスク・ネットワーク・リクエスト数・エラー率	Prometheus + Grafana、Datadog、CloudWatch
ログ監視	エラーログ・アクセス異常・認証失敗	Loki + Grafana、Elasticsearch + Kibana、CloudWatch Logs

小規模システムでは死活監視 + 基本メトリクスだけで十分な場合も多いです。まず死活監視から始め、運用しながら必要に応じてメトリクス・ログ監視を追加する段階的アプローチを推奨します。

インフラ層・アプリ層・ビジネス層の 3 レベルで監視対象を整理します。

オープンソースの Prometheus + Grafana は中小規模のシステム監視に広く使われています（設定詳細はこちら）。

node_exporter：Linux サーバーの CPU・メモリ・ディスク・ネットワーク情報を Prometheus 形式で公開するエージェント。監視対象の全サーバーに導入します。
Prometheus：各サーバーの node_exporter にポーリングしてメトリクスを収集・保存します。
Grafana：Prometheus のデータを可視化するダッシュボード。node_exporter のコミュニティダッシュボードをインポートするだけで即座に使えます。
Alertmanager：Prometheus のアラートルールに基づきメール・Slack・PagerDuty 等へ通知します。

クラウド環境であれば AWS CloudWatch・Azure Monitor・OCI Monitoring など、マネージドな監視サービスを使う方がセットアップコストを抑えられる場合があります。

アラートが多すぎると「狼少年」状態になります。 アラートには「今すぐ人が対応すべきもの」だけを含め、単なる情報（informational）は通知しない設計が重要です。

メトリクス	Warning（警告）目安	Critical（緊急）目安	備考
CPU 使用率	70%以上（5分間継続）	90%以上（2分間継続）	瞬間的なスパイクは無視
メモリ使用率	80%以上	90%以上	キャッシュによる見かけ上の高使用率に注意
ディスク使用率	75%以上	90%以上	100%になるとサービス停止するため早めに対処
HTTP 5xx エラー率	1%以上（1分間）	5%以上（1分間）	デプロイ直後は一時的に上昇することがある
SSL 証明書期限	残り 30 日	残り 7 日	自動更新の失敗検知として重要

これらの数値はあくまで出発点です。実際のシステムの挙動を観察しながら調整します。

SSL 証明書の有効期限切れはサイト停止と同等の影響があります。特に 2026〜2029 年にかけて有効期限が最大 47 日に短縮される予定で、自動更新の失敗を素早く検知するための監視が重要になります。

有料 SSL 証明書では証明書の更新タイミングを自分でコントロールできます。
SSL証明書の一覧・購入はこちら / SSL証明書 FAQ

内部監視（メトリクス・ログ）だけでは見えない問題があります。例えばサーバーは動いているのに Nginx が止まっている、DNS が解決できないなどは外形監視（外部からの HTTP リクエスト）でしか検知できません。

UptimeRobot（無料プラン）：5 分間隔で HTTP チェック。ダウン時にメール通知。手軽に始められる。
Pingdom / Better Uptime：有料だが複数拠点・1 分間隔チェック、詳細なレポートが取れる。
ヘルスチェックエンドポイント：アプリ側に /health エンドポイントを用意し、DB 接続・キャッシュ疎通など内部依存サービスの状態も含めたヘルスチェックを外形監視で叩く。

アラートが来たとき「誰が・何を・どの順番で確認するか」を事前に決めておくことで、深夜の障害でもパニックにならず対応できます。

エスカレーション基準：5 分以内に対応できなければ次の担当者に連絡する、など明文化する。
ランブック（障害対応手順書）：「CPU が高い場合の調査手順」「DB 接続数が上限に達した場合の対応」など、よくある障害のパターン別に手順を文書化する。
ポストモーテム：障害後に根本原因・影響範囲・再発防止策を記録し、次回の改善につなげる。

監視設計・インフラ運用改善のご相談はエスロジカルへ
監視設計から構築・アラート整備まで、インフラ運用改善を一貫してサポートします。
お問い合わせはこちら
関連：SSL証明書 / SSL証明書 FAQ

1. 監視の 3 層モデル