開発運用アーキテクチャ

概要 ― 作って届けて動かし続ける一本の流れ ― 生成AI時代のアーキテクチャ超入門

概要 ― 作って届けて動かし続ける一本の流れ ― 生成AI時代のアーキテクチャ超入門

本記事について

当サイトを閲覧いただきありがとうございます。 本記事はシリーズ『生成AI時代のアーキテクチャ超入門』の「開発運用アーキテクチャ」カテゴリ第1弾として、開発・運用アーキテクチャの全体像について解説する記事です。

「作る仕組み(構成管理・CI/CD・テスト・レビュー・開発環境)」「動かし続ける仕組み(監視・ログ・SLOインシデントSRE)」ひとつながりのライフサイクルとして扱います。DevOps と SRE の普及で開発と運用の境界は消え、別の仕事として設計するのはもう古いのが2026年の前提です。本記事はカテゴリ全16記事の全体地図として機能します。

このカテゴリの全記事一覧・各記事で学べるポイントは以下のページにまとめています。

開発運用アーキテクチャ(DevOps/SRE)記事一覧 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-index-devops/

本記事のテーマについてさらに詳しく知りたい方は『ITアーキテクチャのセオリー』も参考にしてみてください。

そもそも開発運用アーキテクチャとは何か

工場の生産ラインを想像してください。製品を設計する部門と、生産ラインを動かし続ける部門が完全に分離していたら、「設計通りに作れない」「ラインが止まっても設計部門は知らない」という問題が頻発します。両者を一本のラインとして統合するのが現代の工場経営です。

開発運用アーキテクチャも同じ発想です。コードを書く仕組み(構成管理・CI/CD・テスト・レビュー)と、動かし続ける仕組み(監視・ログ・SLOインシデント対応)をひとつながりのライフサイクルとして設計する領域です。

もし開発と運用がバラバラなら、リリースのたびに「出したい開発」対「止めたい運用」の綱引きが発生し、障害時には責任の押し付け合いが繰り返されます。

なぜ開発と運用を一体で設計するのか

同じコードが開発から本番まで一直線で流れる

構成管理 → CI → デプロイ → 監視までが単一のパイプラインで繋がっています。どこで切っても、片側だけ最適化する意味がないと言えるほどに一体化しているのが現代のソフトウェアです。

同じ指標で評価する時代になった

DORAの4指標(デプロイ頻度・リードタイム・MTTR・変更失敗率)は、開発スピードと運用安定性を同じ式で測ることを前提にしています。片方だけ改善しても、数値は動きません。

AI時代は「コードで運用」が前提

IaCGitOps(Git を起点に運用を自動化)が主戦場になり、運用は開発と同じスキルセットで回ります。手動 SSH で設定ファイルをいじる運用は、AI 時代には負債です。

「開発」「運用」の二分法は、組織図の残像。実務ではもう一本の川になっています。

この章で扱うライフサイクル全体

DevOps/SREのライフサイクル全体像

この章は左から右へ読むと、1つのアプリケーションが「コードになって、届いて、動き続ける」までの全工程が並んでいます。各記事は単独でも読めますが、DevOps・SREの全体像 を最初に通すと、なぜこの並びなのかが腑に落ちます。

なぜこの順番なのか

全15記事は4つのフェーズ+2つの横断テーマに分かれています。

  • 開発フェーズ(構成管理→開発環境→レビュー→テスト→CI):コードを書いて品質を担保するまでの流れ
  • リリースフェーズ(デプロイ戦略):品質を担保されたコードを本番へ届ける
  • 運用フェーズ(監視→ログ→SLOインシデント対応):本番で動き続ける仕組み
  • 継続改善フェーズSREプラクティス):運用の知見を開発に還元し、サイクルを回す
  • 横断テーマ(ドキュメンテーション・チケット管理):全フェーズを貫くプロセス基盤

この4フェーズは一方通行ではなく循環しています。運用で見つかった問題が開発に戻り、SREプラクティスが開発プロセスを改善する。DORA 4指標は、この循環の速度と品質を同じ式で測るための道具です。

記事の並び

記事扱う段階
DevOps・SREの全体像章全体の地図
構成管理Git・ブランチ戦略
開発環境とローカル実行開発者体験
コードレビューPR 運用
テスト設計自動テスト戦略
CICDパイプライン設計
デプロイ戦略Canary・Blue-Green
監視とオブザーバビリティメトリクス・トレース
ログ設計構造化ログ
SLOとSLI信頼性目標
インシデント対応オンコール・ポストモーテム
SREプラクティス継続改善・Toil 削減
ドキュメンテーション横断・長寿命
チケット・プロジェクト管理横断・意思決定

決めるべきこと①:開発プロセス系

項目選択肢の例
GitホスティングGitHub・GitLab・Bitbucket
ブランチ戦略GitHub Flow・Trunk Based・GitFlow
CI/CDGitHub Actions・GitLab CI・CircleCI
テストピラミッド単体/結合/E2E の比率
レビュー方針2人承認・CODEOWNERS・マージキュー
開発環境Docker Compose・Dev Container・クラウドIDE
ドキュメント置き場リポジトリ内 md・Notion・Confluence

決めるべきこと②:運用系

項目選択肢の例
監視ツールPrometheus・Datadog・New Relic
ログ基盤CloudWatch Logs・Loki・Splunk
分散トレースOpenTelemetry・Jaeger・X-Ray
SLO/SLI定義可用性99.9%・p99(遅い方から1%を除いた応答時間)レイテンシ等
アラート条件静的閾値/異常検知/SLOバーンレート
通知先PagerDuty・Slack・Opsgenie
オンコール体制24/7・営業時間のみ・週次ローテ
エラーバジェット運用超過時にリリース凍結するか

決めるべきこと③:リリース・横断系

項目選択肢の例
デプロイ戦略Blue-Green・Canary・ローリング
Feature FlagLaunchDarkly・Unleash・自前
ロールバック方針自動・手動・不可
バックアップ頻度・保存期間・世代管理
リストア訓練年次・四半期・月次
容量計画自動スケール・手動見直し
チケット運用Jira・Linear・GitHub Projects

サービス種別×成熟度の段階表

※ 2026年4月時点の業界相場値です。テクノロジー・人材市場の変化で陳腐化するため、定期的にアップデートが必要です。

開発・運用の投資水準はサービス種別で大きく変わるのが実務の姿です。MVP に金融並みの SRE を敷くのも、決済システムに手動デプロイを残すのも、どちらも事故のもとです。

サービス種別SLOデプロイ監視オンコール年間運用コスト
社内ツール99%手動 or 軽い CDCloudWatch 標準業務時間のみ数万円
一般B2C Web99.9%CD 自動 + CanaryDatadog 無料枠 / Grafana Cloud兼任2〜3名 + PagerDuty数十万円
B2B SaaS99.95%日複数回 / Feature FlagDatadog / New Relic専任SRE 2〜3名数百万円
金融・決済99.99%段階リリース厳格SIEM + UEBA + APM24/7 SRE + SOC数千万円〜
通信・電力99.999%四半期・年次エンタープライズ統合基盤Follow-the-Sun数億円〜

可用性 99.9% と 99.99% では構築コストが数倍違うのが実務の感覚です。業務部門と数値で合意しない限り、「できるだけ高く」は破産への道です。100%は目標ではない、これが章全体を貫く思想です。

SLO業務部門と数値で合意するもの。「止まらない」という言葉では永遠に噛み合いません。

運用設計の3本柱

運用を支える中核は 監視・ログ・分散トレース の3つで、これを統合して扱う考え方が オブザーバビリティ(Observability=未知の問題を後から調査できる状態にする設計思想)です。どれか1つでも欠けるとシステムはブラックボックスになります。

役割代表ツール
監視(Monitoring)数値で状態を可視化Prometheus・Datadog・CloudWatch
ログ(Logging)出来事を文字で記録Loki・Splunk・CloudWatch Logs
分散トレース(Tracing)リクエストの経路を追跡Jaeger・Tempo・X-Ray

現在の標準は OpenTelemetry(監視データの標準仕様)で統一送信し、GrafanaDatadog で横串で見るパターンです。ツール選定より、計装を標準化することが最初の分岐点になります。

SREの核心 — 「壊れてよい量」を数値で合意する

SRE の中核は、SLOエラーバジェット(SLO を守れる範囲の「壊してよい量」)の2つに尽きます。SLO を「月間可用性 99.9%」と定めれば、月に約43分は止まってよい計算になり、その時間がエラーバジェットです。

予算の範囲内ならリリースを攻め、超過したらリリース凍結して安定化に集中する──これが「速度と信頼性を同じ指標で回す」SRE のやり方です。

概念意味
SLI実測値(応答時間・成功率など)
SLO内部で合意した目標値
SLA顧客との契約(未達で補償発生)
エラーバジェットSLO を守れる範囲で「壊してよい量」

100%可用性は不可能。数値で合意して、開発速度と信頼性をトレードオフする──これが SRE 思想の核心です。

DORA 4指標 — チームの健康診断

Google の DevOps Research & Assessment が、強いチームと弱いチームの差を4つの数値に絞って示したのが DORA です。開発速度と運用安定性を同じ式で測る、というのがこの章を束ねる思想の根拠になっています。

指標Elite(上位10%)Low
デプロイ頻度日に複数回月1未満
変更リードタイム1時間未満1ヶ月超
MTTR(平均復旧時間)1時間未満1ヶ月超
変更失敗率0〜15%46〜60%

詳細と改善の優先順位は次の記事「DevOps・SREの全体像」で扱います。この章の各記事は、どれかのDORA指標を動かすためのピースとして読むのが実践的です。

やってはいけないこと

各論記事で触れた禁じ手のうち、章レベルで押さえるべき核心をまとめます。

禁じ手なぜダメか
監視・ログを後から追加障害時に原因特定不能、数日の手探り
静的閾値(CPU 80%)だけでアラート負荷変動で誤検知、SLO バーンレートに切り替え
100%可用性を目標化コスト無限大、エラーバジェットで速度を買う
ベテラン1人で障害対応退職時に崩壊、Runbook のコード化は必須
ポストモーテムで犯人探し情報隠蔽、Blameless(非難しない)が鉄則
Feature Flagなしで大規模リリースKnight Capital 2012年(45分で4.4億ドル損失)のパターン
DB変更とコードデプロイを同時expand/contract で分離、ロールバック可能に
SRE看板だけで手作業運用Toil 50%超は危険水域、手が変わらなければ SRE ではない
開発チームが運用を知らないまま出荷本番で初めて壊れる、オンコール参加が最短の教材
CIを回すだけでゲートにしない落ちても merge できれば飾り、ブロッキングが前提
「開発プロセスは現場が自由に決めればいい」と放任人を増やすほど事故が増える逆相関に陥る
「障害はゼロにできるはず」と完璧を追うMTTRの短縮に投資する方が信頼性も経済性もよくなる

開発・運用は「作り終わった後」ではなく「作り始める前」に決めるもの。後付けは10倍コストです。

AI判断軸

AI有利AI不利
構造化ログ(JSON)・OpenTelemetry人間向けの自然文ログ
IaC/GitOps で宣言的に管理手動SSHでの運用作業
Runbook が Markdown で Git 管理Confluence・口伝で散在
Prometheus・標準メトリクス独自の監視スキーマ
  1. 開発プロセスと運用を一体で設計するDORAで同じ式で測れる
  2. 監視・ログ・SLOを最上流で決める — 後付けは10倍コスト
  3. SLOエラーバジェットで速度と信頼性を合意 — 100%は目標ではない
  4. 機械可読な運用データを作る構造化ログIaC/Markdownランブック

機械可読な運用データがAI活用の前提条件

AIに運用タスクを任せるには、AIが読める形式でデータが存在する必要があります。具体的には構造化ログJSON)・IaCコード・Markdownのランブック・OpenTelemetryのメトリクスです。これらがすべてGitやAPIで取得可能な状態であれば、AIは障害検知→原因特定→復旧提案→実行の一連を自動化できます。

逆に、手順書がConfluenceの画像付きページやSlackの過去ログにしか存在しない場合、AIはそれを参照できません。DevOps設計の段階で「すべてのプロセスと知識をコードまたは構造化テキストで管理する」と決めることが、AI時代の運用自動化への最短路です。

DORA指標の改善をAIが直接支援する

デプロイ頻度・変更リードタイム・変更失敗率・MTTR(平均復旧時間)の4指標は、CIパイプラインとGitログから自動計測できます。AIはこれらの指標を解析し、「プルリクエストのサイズが大きい週はデプロイ頻度が落ちている」「特定のサービスの変更失敗率が高い」といったパターンを検出して改善提案を出せます。

筆者メモ — 「監視なし」「DevOpsチーム」、どちらも地雷

運用現場でよく語られる典型事例を2つ紹介します。

1つ目は監視なし運用。監視もメトリクスもない本番環境を引き継ぎ、深夜の障害通知に SSH で潜って toptail -f を勘で眺める、結局3時間手探りで原因特定、という話は珍しくありません。ダッシュボードがあれば5分で気づける問題に数時間かかるのは、運用設計を「後でやる」と決めた瞬間に確定する未来です。2017年2月の AWS S3 大規模障害(us-east-1)も、デバッグ作業でのコマンド打ち間違いで広範な SaaS が停止した典型例で、手動運用の地雷踏みを業界全体に突きつけた事件でした。

2つ目はDevOpsチーム地雷。専任の DevOps チームを立てて「DevOps 化」を掲げる組織は、数か月でほぼ確実に新しいサイロが生まれます。開発チームは「DevOps チームに任せた」、DevOps チームは「開発が CI を直してくれない」、結局壁が一つ増えただけ──という顛末は、業界でアンチパターンの代表格として知られます。DevOps は役割の再分配ではなく壁の解体の話で、ここを読み違えると本命の改善はまるで進みません。

どちらも「人に頼る」「組織で解決しようとする」の二択で事故っていて、解はコードとプロセスで設計することに尽きます。

まとめ

本記事は開発・運用アーキテクチャの全体像について、開発と運用を一体で扱うDevOps/SREDORA 4指標・SLO+エラーバジェット・AI時代の機械可読な運用データまで含めて解説しました。如何だったでしょうか。

開発と運用を一体で設計し、監視・ログ・SLOを最上流で決め、エラーバジェットで速度と信頼性を合意し、機械可読な運用データを作る。これが2026年の開発・運用アーキテクチャの現実解です。

次回はDevOps・SREの全体像DORA 4指標と組織戦略)について解説します。

シリーズ目次に戻る → 『生成AI時代のアーキテクチャ超入門』の歩き方

本記事で扱った内容の詳細は DORA - DevOps Research and Assessment も合わせて参考にしてください。

それでは次の記事も閲覧いただけると幸いです。