wan0ri Lab

『SREの知識地図』の著者を招いてお送りするSREの旅〜 Road3 システムの状態を観測する を視聴して【イベント感想】

TL;DR

  • 観測の目的は「ユーザー体験の保護」と「変更速度の維持」の両立。
  • 会話の中心は SLI Service Level Indicator。ユーザー価値に直結する計測指標。 /SLO Service Level Objective。SLI に対する目標値。 と Error Budget SLO を満たしつつ“許される失敗の枠”。意思決定の通貨。 。症状ベース監視へ寄せる。
  • メトリクス/ログ/トレースの役割分担と、cardinality ラベル組み合わせの種類数。増え過ぎるとコスト/クエリが悪化。 管理・サンプリング・PII Personally Identifiable Information。個人を特定できる情報。 対策。
  • アラートは SLO 由来+ Runbook 障害時の標準手順。前提/確認/軽減/深掘り/フォローを定型化。 紐付け。ノイズは抑制/集約/遅延で削減。
  • ダッシュボードは監視盤と探索盤を分離し、リリースと観測を結合(Release Health リリース単位で健全性を追うビュー。 )。

参加イベント

2025 年 12 月 22 日(月)に開催された連続講義『SRE の知識地図』の著者を招いてお送りする SRE の旅〜 Road3 システムの状態を観測する を視聴しました。
視聴メモと、実務に転用できそうなポイントを残します。

アーカイブ(YouTube)は以下:

備考: 前回参加した際の記事はこちら → 『SRE の知識地図』の著者を招いてお送りする SRE の旅 〜 Road2: 信頼性を定義して組織で運用する を視聴して【イベント感想】


印象に残ったこと

1. 観測の出発点は「ユーザー症状」

  • ユーザーにとっての異常(失敗・遅延・不正確さ)を定義。
  • SLI は症状ベース、原因指標は補助に回すという整理が実務で効く。

2. SLO は“会話のハブ”

SLO/エラーバジェットを共通言語にすると、優先度調整と観測要件の合意が進むと感じました。

3. テレメトリの役割分担

  • メトリクス=健康診断、ログ=事実記録、トレース=因果の紐解き。
  • トレースはクリティカルパスから段階導入、サンプリングは SLO 連動。

4. アラート疲れを防ぐ設計

  • 「落ちたら困る」基準に限定し、抑制・集約・遅延でノイズを削減。
  • 全アラートに責任者・優先度・TTR Time To Resolve。検知から復旧までの時間。 ・Runbook を紐付け。

5. コストとガバナンスの織り込み

高カーディナリティ抑制、保存期限・サンプリング方針、PII ガイドラインを最初に設計対象として明文化。


後に試してみたいこと (自分向け)

インフラ/SRE の日常運用に即して、

  • 主要 SLI(成功率/遅延 P95/正確性)に暫定フォーカスし、SLO と Error Budget を設定。
  • Pager/On-call のアラート棚卸し。SLO 非連動は抑制/無効化し、Runbook を必ず紐付け。
  • Golden Signals レイテンシ/トラフィック/エラー/飽和の 4 指標。 の監視盤を 1 枚に統合。探索盤は分離して役割を明確化。
  • 分散トレースはクリティカルパスから導入。遅延長いリクエストは必ず取得など SLO 連動サンプリング。
  • 高カーディナリティ上位ラベルを洗い出し、削減・集約・TTL を適用してコスト管理。
  • リリース“完成定義”に観測タスク(メトリクス/ログ/トレース/ダッシュボード/アラート更新)を追加。
  • 事後検証で SLO/アラート閾値を見直し、再発防止をタスク化。

まとめ(現時点の所感)

「観測なくして本番なし」。ユーザー症状起点の SLI/SLO と、SLO 由来アラート+ Runbook の運用を軸に、まずノイズ削減とダッシュボード整理、クリティカルパスへのトレース導入から始めるのが自分の最短距離だと感じました。