大規模システム設計の基礎を視聴して【イベント感想】

Dec 1, 2025· wan0ri· Category: Event

TL;DR

システム設計は「要件・制約 → 規模見積もり → ボトルネック仮説 → 対策/検証」の反復。言語化した前提を常に更新するのが肝。
規模感は“目分量”ではなく、概算（QPS / スループット / ストレージ容量 / 帯域）で会話する。数字があると優先順位とトレードオフが立つ。
スケール戦略は段階的に（垂直 → 水平 → 分割）。キャッシュ、非同期化、キュー、シャーディング、冪等性 で詰まりを逃がす。
可用性・一貫性 ・コスト・複雑性はトレードオフ。SLO を置き、過不足を検証で詰める。

参加イベント

2025 年 11 月 29 日（土）に開催された Recursion 主催の『大規模システム設計の基礎』を視聴しました。

recursion.connpass.com

recursion.connpass.com/event/375558/

備考: 当日 Zoom のチャットで登壇者様より参加者向け URL として資料共有がありましたが、connpass には一般公開されていないため、本記事では資料 URL/内容の直接掲載や図版の転載は行いません（要旨のみ記載）。

印象に残ったこと

1. 前提をそろえる（要件/制約/成功条件）

機能要件（誰が何をいつまでに）と非機能要件（可用性/レイテンシ /スループット/保存期間/費用上限）を先に言語化。
「SLO と完了定義」があると、後段のトレードオフや優先順位の会話が速くなると実感しました。

2. 概算でスケールを掴む（Back-of-the-envelope）

Back-of-the-envelope とは、封筒の裏計算。厳密さよりも“桁”を素早く掴む概算のこと。

リクエスト/秒、平均レスポンス、書き込み/読み出し比 、データ増分、帯域、ストレージ費をざっくりで良いので置く。
数字が置けると、キャッシュの利き所、DB/ネットワークの詰まり、ボトルネック 候補が自然と見えてきます。

3. ボトルネックに対する基本手筋

キャッシュ（ブラウザ/エッジ /アプリ/DB 前）でホットパス を軽くする。
非同期化（キュー/ワーカー、リトライとバックオフ ）でピークを平準化。
シャーディング/レプリケーション で水平分割。ハッシュ or レンジ の選択とスキュー 対策。
冪等性キー と順序保証 、バックプレッシャー で故障時の増幅を抑える。

4. 一貫性と可用性の折り合い

ユーザー体験の SLO を軸に、強い整合性 /最終的整合性 、厳密なトランザクション /アウトボックス＋イベント駆動 などの選択肢を評価。
“理想”ではなく“必要十分”を合意して進めるのが現実的だと再確認しました。

5. 運用と検証まで含めて設計

観測可能性 （メトリクス /ログ/トレース ）とローリング /カナリア /段階リリース、容量監視、スロットリング /レート制限 を最初から設計に入れる。
設計レビューは “図と言葉と数字” の 3 点セットで回すと意思疎通が早い。

後に試してみたいこと（自分向け）

設計ワンペーパーを定着: 前提/概算/リスク/実験計画の 1 枚を作ってから実装に入る。
概算テンプレの自動化: QPS・保存量・帯域を計算する簡易シートを用意して、レビューで使い回す。
失敗前提の設計チェック: タイムアウト/リトライ/冪等性/バックオフ/サーキットブレーカ の有無を点検。
観測の最小セット: 成功率、p95 レイテンシ、エラー率、キュー滞留、リソース使用率を最初からダッシュボード化。

System Design ワンペーパー（雛形・コピペ可）

## 背景/目的

- 目的: <例: 注文 API を 300 RPS で p95 300ms 以内に>
- ユーザー価値: <例: カート離脱を抑える>

## 前提/制約

- SLO: 可用性 99.9% / p95 300ms / 28 日
- 制約: <リージョン/既存 DB/予算上限/発売日 など>

## 概算（Back-of-the-envelope）

- トラフィック: ピーク <RPS> / 日次 <リクエスト数>
- データ: 書込/読取比、1 リクエストあたりのペイロード、日次増分
- 帯域/費用: 出入口 <MB/s>、ストレージ/月 <GB>

## アーキテクチャ（初期案）

- パス: <同期> API Gateway → App → Cache → DB
- バックグラウンド: <非同期> Queue → Worker → 外部連携
- 信頼性: Retry(指数)/Timeout/Idempotency/CircuitBreaker/RateLimit

## リスク/対策

- ホットキー/スキュー → キャッシュ分散、キー設計
- キュー滞留 → 可視化、スケールポリシー、DLQ
- DB ボトルネック → 読取レプリカ、セカンダリインデックス

## 実験計画/検証

- 負荷試験: 100→300→500 RPS ステップ、p95/エラー率監視
- カナリア: 5% → 25% → 50% ロールアウト、指標は SLO 直結のみ Pager

まとめ（現時点の所感）

数字で前提を固定し、小さく検証して学びを反映する ── この当たり前を“儀式化”すると組織の設計力が底上げされると感じました。
まずはワンペーパー と概算テンプレをチームで共有し、レビューの共通フォーマットにしていきます。

SRE は “定義 → 運用 → 学習” のリズムを組織で回す営みだと再確認しました。
まずは自チームの SLO を 3 件に絞り、アラートの棚卸しと PIR のテンプレ整備から着手したいと思います。
なお Pager 方針を徹底することも心がけたいと思います。

Topへ戻る