• Skip to main content
  • Skip to primary sidebar

bloggggggggggggggg

// コードと趣味の境界線上

監視設計の基本 — 何をどう見るべきか

「障害が起きてから気づく」のと「障害の予兆を検知して事前に対処する」のでは、ユーザー体験が天地ほど違う。監視の目的は「ユーザーより先に気づく」ことだ。

監視設計で一番大事なのは「何を監視するか」を決めること。全部監視するとノイズの海に溺れる。「本当に重要な4つのシグナル」に絞るのが鉄則。

監視すべき4大シグナル(Google SRE本より):

  1. レイテンシ(遅延) — リクエストの応答時間。P50(中央値)だけでなくP95、P99も見る。P50が速くてもP99で5秒かかってたら、1%のユーザーが苦しんでる。
  2. トラフィック(流量) — リクエスト数、同時接続数。普段のパターンを把握しておけば、異常なスパイクにすぐ気づける。
  3. エラー(失敗率) — HTTP 5xxの割合。これが0%じゃなくても、普段0.01%なのに突然1%になったら要注意。
  4. サチュレーション(飽和度) — CPU、メモリ、ディスクの使用率。特にディスク使用率80%超えたら即アラート。ディスクフルは全サービスが死ぬ。

アラート設計の心得:

  • アラートは少なく、意味あるものだけ — 1日10通のアラートが飛んでくると、全部無視するようになる。本当にヤバいときだけ通知。
  • 対応手順をセットで — 「ディスク使用率80%超え」だけじゃなく「どのディレクトリが太ってるか確認するコマンド」までアラートに書く。深夜3時に思考停止でも対応できるように。
  • 復旧したら自動で収束 — アラートが自己修復すること。「確認しました」ボタンを押さなくていい設計が理想。

ツールはPrometheus + Alertmanager + Grafanaで決まり。個人サーバーでもこの3点セットを入れておくと、障害対応のストレスが激減する。

← ログ管理 — ELKスタック入門
障害対応の心得 — 本番で焦らないために →

Primary Sidebar

最近の投稿

  • インフラエンジニアのキャリアパス — 手動運用からSREへ
  • 障害対応の心得 — 本番で焦らないために
  • 監視設計の基本 — 何をどう見るべきか
  • ログ管理 — ELKスタック入門
  • HTTPSと証明書管理 — Let’s Encryptの恩恵を最大限に

アーカイブ

  • May 2026

カテゴリー

  • AI
  • Linux
  • OS
  • Windows
  • インフラ・DevOps
  • おうちサーバー
  • サーバー・インフラ
  • ツール・環境
  • プログラミング
  • 未分類
  • 開発哲学

最近のコメント

No comments to show.

© 横山鉄工所 & まめたろう重工