株式会社エスロジカル
株式会社エスロジカル
SSL証明書(DV、OV、EV)、セキュリティ、Web開発、Linux開発、Go言語

HOME > 技術ドキュメント > サーバー監視とアラート設計の基本

サーバー監視とアラート設計の基本

執筆:株式会社エスロジカル(Webシステム受託開発・インフラ構築・運用改善)


「監視はしているが、アラートが多すぎて見なくなった」「障害をユーザーから教えてもらった」 という運用現場は少なくありません。
監視設計で重要なのは「何でも監視する」ではなく、「何が起きたら誰が何をするか」を設計することです。 本記事では、Webシステムの監視設計とアラートの考え方を整理します。

監視を「死活監視・メトリクス監視・ログ監視」の 3 層に整理すると設計が明確になります。

対象・方法 代表的なツール
死活監視 サービスが HTTP レスポンスを返しているか UptimeRobot、Zabbix、外形監視サービス
メトリクス監視 CPU・メモリ・ディスク・ネットワーク・リクエスト数・エラー率 Prometheus + Grafana、Datadog、CloudWatch
ログ監視 エラーログ・アクセス異常・認証失敗 Loki + Grafana、Elasticsearch + Kibana、CloudWatch Logs

小規模システムでは死活監視 + 基本メトリクスだけで十分な場合も多いです。 まず死活監視から始め、運用しながら必要に応じてメトリクス・ログ監視を追加する段階的アプローチを推奨します。

インフラ層・アプリ層・ビジネス層の 3 レベルで監視対象を整理します。

オープンソースの Prometheus + Grafana は中小規模のシステム監視に広く使われています(設定詳細はこちら)。

クラウド環境であれば AWS CloudWatch・Azure Monitor・OCI Monitoring など、 マネージドな監視サービスを使う方がセットアップコストを抑えられる場合があります。

アラートが多すぎると「狼少年」状態になります。 アラートには「今すぐ人が対応すべきもの」だけを含め、単なる情報(informational)は通知しない設計が重要です。

メトリクス Warning(警告)目安 Critical(緊急)目安 備考
CPU 使用率 70%以上(5分間継続) 90%以上(2分間継続) 瞬間的なスパイクは無視
メモリ使用率 80%以上 90%以上 キャッシュによる見かけ上の高使用率に注意
ディスク使用率 75%以上 90%以上 100%になるとサービス停止するため早めに対処
HTTP 5xx エラー率 1%以上(1分間) 5%以上(1分間) デプロイ直後は一時的に上昇することがある
SSL 証明書期限 残り 30 日 残り 7 日 自動更新の失敗検知として重要

これらの数値はあくまで出発点です。実際のシステムの挙動を観察しながら調整します。

SSL 証明書の有効期限切れはサイト停止と同等の影響があります。 特に 2026〜2029 年にかけて有効期限が最大 47 日に短縮される予定で、 自動更新の失敗を素早く検知するための監視が重要になります。

有料 SSL 証明書では証明書の更新タイミングを自分でコントロールできます。
SSL証明書の一覧・購入はこちら /  SSL証明書 FAQ

内部監視(メトリクス・ログ)だけでは見えない問題があります。 例えばサーバーは動いているのに Nginx が止まっている、DNS が解決できないなどは 外形監視(外部からの HTTP リクエスト)でしか検知できません。

アラートが来たとき「誰が・何を・どの順番で確認するか」を事前に決めておくことで、 深夜の障害でもパニックにならず対応できます。


監視設計・インフラ運用改善のご相談はエスロジカルへ
監視設計から構築・アラート整備まで、インフラ運用改善を一貫してサポートします。
お問い合わせはこちら
関連:SSL証明書 / SSL証明書 FAQ

← 技術ドキュメント一覧へ戻る