システムアーキテクチャ

クラウドコスト管理(FinOps)― 設計で守る・運用で磨く ― 生成AI時代のアーキテクチャ超入門

クラウドコスト管理(FinOps)― 設計で守る・運用で磨く ― 生成AI時代のアーキテクチャ超入門

本記事について

当サイトを閲覧いただきありがとうございます。 本記事はシリーズ『生成AI時代のアーキテクチャ超入門』の「システムアーキテクチャ」カテゴリ最終記事(第11弾)として、クラウドのコスト管理(FinOpsについて解説する記事です。

クラウドの従量課金は判断ひとつで月10万にも月1000万にもなります。本記事では請求が膨張する原因、FinOps(クラウドコスト運用の継続最適化)の3フェーズ、料金モデル・タグ戦略・規模別の管理レベル、そしてLLM時代の新しいコスト論点まで解説します。

このカテゴリの他の記事

システムアーキテクチャ概要 ― 最初に決める骨組み ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-overview/アプリケーション形態の選び方 ― Web/Native/Hybrid ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-application-types/デプロイモデルの選び方 ― オンプレ/クラウド/ハイブリッド ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-deployment-model/クラウドベンダーの選び方 ― AWS / Azure / GCP ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-cloud-vendor/実行環境の選び方 ― VM/コンテナ/サーバーレス/Wasm ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-runtime/OS選定の考え方 ― Linux/Windows/UNIX とARM ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-os/データストアの配置方針 ― RDBMS/NoSQL/キャッシュ/検索の組合せ ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-datastore/ネットワーク設計の基礎 ― VPC/サブネット/CIDR ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-network/セキュリティ基盤の全体地図 ― 多層防御と最小権限 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-security/監視と運用の全体設計 ― Observability3本柱と4黄金シグナル ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-monitoring/BCP/DR設計の鉄則 ― RPO・RTO・3-2-1ルール ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-system-bcp/

請求書を開く指が震える日

クラウドの利用料を継続的に可視化・最適化する活動の総称が FinOps です。単なる節約ではなく、必要なところに払い、無駄を削るという投資の最適化です。安くすれば勝ちではなく、事業価値に見合った支出になっているかを問い続けるのが本質です。

クラウド請求が想定の3〜10倍になる事故は、決して珍しくありません。ログ出しすぎ・インスタンス起動しっぱなし・マネージドサービスの「裏側の呼び出し」で、見積もりを大きく超える請求が来ます。その多くは設計段階で予防できるもので、「設計段階で料金モデルを読まなかった」という単純な不作為が原因です。

コストは運用が始まってから毎月響いてくる非機能要件です。設計段階で手を打つのが鉄則です。

なぜ最初に考えるのか

① 想定の3〜10倍になる事故が頻発

ログ出しすぎ・インスタンス起動しっぱなし・マネージドサービスの「裏側の呼び出し」で、見積もりの3〜10倍の請求が来る事故は珍しくありません。特にLLM API は月数百万規模になりやすく、プロンプトキャッシュ設定を忘れただけで請求が跳ねます。

② 後から直すコストが大きい

コスト最適化のためにアーキテクチャを組み直すのは One-way Door(一度通ると引き返せない判断)に近く、初期設計の段階で考えておかないと後悔します。「動き始めてから考える」は、ほぼ必ず数ヶ月分の無駄支出を生みます。

③ 決裁権限とセットで設計する

コストは経営の決裁領域です。月10万までは現場判断、月100万は経営承認など、支出のガバナンスを設計段階で合意する必要があります。これを曖昧にしたまま運用開始すると、請求書が届いた月末に経営と現場で揉めます。

クラウド請求が膨張する「あるある」

実運用で請求額が爆発する代表的な原因は、驚くほど同じパターンを繰り返します。全てに「設計段階で気づけたのに」という共通点があります。

あるある何が起こるか
開発環境を止め忘れ夜間・休日も24時間課金され月数十万
ログの大量出力CloudWatch Logs 料金が本番運用費より高くなる
NATゲートウェイ経由の通信データ転送料が想定外に膨らむ
マネージドDBの過剰スペック「念のため大きめ」で月10倍の差が出る
S3の古いオブジェクト放置削除ポリシー無しで請求が積み上がる
データ転送(egress)料金リージョン跨ぎ・AZ跨ぎで見えにくい

egress(クラウドから出ていく通信)は最も見落としやすい請求項目です。

FinOpsの3フェーズ

FinOps「Inform(見える化)→ Optimize(最適化)→ Operate(運用化)」の3段階で回します。多くの企業は「見える化」すら不十分なまま、いきなり節約策に走って効果が出ないパターンにはまります。

flowchart LR
    INFORM["Inform<br/>(見える化)<br/>誰が何にいくら"]
    OPT["Optimize<br/>(最適化)<br/>削除・サイジング・割引"]
    OPER["Operate<br/>(運用化)<br/>予算ガバナンス・継続改善"]
    INFORM --> OPT --> OPER
    OPER -.継続改善ループ.-> INFORM
    BAD[よくある失敗:<br/>いきなりOptimizeに走り<br/>すぐ元に戻る]
    BAD -.->|タグ未整備| INFORM
    classDef inform fill:#dbeafe,stroke:#2563eb;
    classDef opt fill:#fef3c7,stroke:#d97706;
    classDef oper fill:#fae8ff,stroke:#a21caf;
    classDef bad fill:#fee2e2,stroke:#dc2626;
    class INFORM inform;
    class OPT opt;
    class OPER oper;
    class BAD bad;
フェーズ内容代表ツール
Inform誰が・何に・いくら使っているかを可視化AWS Cost Explorer・GCP Billing Reports・Azure Cost Management
Optimize不要リソース削除・サイジング最適化・割引活用AWS Compute Optimizer・Trusted Advisor
Operateガバナンス・予算上限・継続改善の組織化AWS Budgets・タグ規約・週次レビュー

「可視化 → 最適化 → 運用化」の順で取り組まないと、短期的な削減が定着せずすぐ元に戻ります。特に Operate のフェーズ(組織として回し続ける仕組み)が抜けると、1回削減して終わり、という単発イベントで終わります。

主要な料金モデル

クラウドの料金は従量課金が基本ですが、長期コミットで大幅に割引される仕組みもあります。使い方次第でコストが半分以下になるため、モデルの理解は必須です。

モデル内容割引
オンデマンド使った分だけ基準(定価)
リザーブド(RI)1〜3年コミット最大70%オフ
Savings Plans使用量コミット(AWS)最大70%オフ
スポット / プリエンプティブル中断OK・余剰リソース最大90%オフ
Committed Use Discounts長期利用割引(GCP)最大57%オフ

定常負荷がある本番ワークロードにはリザーブド、変動負荷には Savings Plans、バッチ処理にはスポットを使うのが定石です。ただし RI は使わなければ損失なので、カバレッジと使用率を監視する運用が前提になります。

可視化の基本 ― タグ戦略

コストを可視化する前提は、全リソースへのタグ付け規約です。タグ無しのリソースは請求書上「不明コスト」として集計され、誰が・何のために使っているか分からなくなります。

必須タグ
Environmentprod / staging / dev
Projectproject-alpha
Ownerteam-a / foo@example.com
CostCenter部門コード
Serviceweb / api / batch

タグ付けを必須化する仕組み(タグ未設定のリソースを自動停止する等)をIaCと組み合わせるのが現代の標準です。タグを「あとで付けよう」にすると永遠に付きません。

タグ規約は設計初期に決める。運用開始後に後付けすると地獄です。

判断基準 ― 規模とフェーズ

コスト管理の厳しさは、月額支出の大きさと事業フェーズで変わります。

フェーズ月額目安管理レベル
MVP・検証期〜10万円予算アラートのみ
初期成長10〜100万円タグ + 月次レビュー
スケール期100〜1000万円専任FinOps・RI/SP活用
エンタープライズ1000万円〜専門チーム・自動最適化

MVP段階で過度な最適化は時間の無駄ですが、月50万を超えたあたりからコストレビューを週次で回すのが効果が出始める目安です。

アーキテクチャ特性で決まるコスト

アーキテクチャ選定そのものが、コストに決定的な影響を持ちます。

設計判断コスト影響
サーバーレス化使っていない時間は無料、低〜中トラフィックで効く
コンテナ化密度を上げて同じマシンに複数サービス乗せられる
マネージドサービス依存運用費は下がるが単価は高め・egressに注意
マルチリージョン可用性は上がるがコストは倍増する前提
データ転送量リージョン跨ぎ・AZ跨ぎ・CDNを意識

特に「サーバーレス vs コンテナ」の選択は、リクエストパターンによって2倍以上の差が出るので慎重に検討します。

ケース別の選び方

スタートアップのMVP

AWS Budgets で月額上限アラート設定。タグは Environment / Owner の2つだけで十分です。サーバーレス(Lambda・Vercel・Cloud Run)で固定費ゼロを基本に、成長してから見直します。マネージド RDB より Supabase・Neon の無料枠活用が合理的です。

中規模B2B SaaS

Cost Explorer で月次レビュー、タグ5項目必須化、RI / Savings Plans で30〜50%削減。CloudWatch Logs の保持期間を7日に短縮、不要な開発環境は夜間自動停止。この規模だと手動運用の限界で、自動化スクリプトを書く価値が出ます。

大規模エンタープライズ

専任のFinOpsチーム、AWS Organizations で部門別アカウント分離、タグ未設定リソースの自動検知・停止。AWS Compute Optimizer の推奨を月次で適用、RIのカバレッジを80%以上に維持。マルチクラウド管理ツール(CloudHealth・Apptio)の導入も視野に入ります。

データ基盤・AI活用

BigQuery はクエリ量課金で「SELECT * が致命傷」、Snowflake はウェアハウスのサイズが直接効きます。カラム指向を活かす SELECT列指定・パーティション切り・クエリキャッシュ活用が効果大。

LLM(Large Language Model、大規模言語モデル)活用ではトークン単価 × リクエスト数で即座に月数百万スケール。プロンプトキャッシュで入力コストを10分の1に、モデル選定(Haiku → Sonnet → Opus)で10倍差。ユーザー入力に対する上限設定・不正利用防止も必須です。

FinOps運用の鬼門・禁じ手

コストは「やらないと気付いたら月額が倍」の領域で、最初に守る運用ルールで9割が決まります。

禁じ手なぜダメか
タグ規約をリソース作成後に決める後付けのタグ付けは永遠に終わらず、不明コストが半数を超える
RI / Savings Plansをカバレッジ監視なしに大量購入使わず期限を迎える「死に買い」が発生。1〜3年のコミットで損失確定
開発環境を自動停止せず24時間稼働開発・検証環境の合計が本番を超える現象が頻発
本番でDEBUGログ出力CloudWatch Logs 請求が月100万円超。INFO以上に絞る + 保持期間短縮
NAT GWを無意識に追加1つ月1.5〜3万円 + 通信料で、使っていない環境でも課金が累積
S3のライフサイクルポリシー未設定数年前の動画・画像が Standard クラスで延々と課金される
データ転送(egress)を見積もらずマルチリージョン構成クラウド外 / リージョン跨ぎ / AZ跨ぎの通信量が予想の10倍になる
コスト異常を月末請求書で初めて気付く1ヶ月間の損失確定後で手遅れ。AWS Cost Anomaly Detection を設定
LLM APIをユーザー上限なしで提供悪意あるユーザーのプロンプトループで一晩で月100万円に到達する事例
マネージドサービスの裏側課金を読まず採用料金ドキュメントを読まない契約が最悪。週次で請求書を見る習慣が唯一の防御

Amazon内部ですら、Prime Video のチームが2023年にマイクロサービスからモノリスに戻してコストを90%削減した事例を公開しています。アーキテクチャ選定がコストを決めるため、設計段階で料金モデルを読まないのは致命的です。

コスト事故は「止め忘れ」で起きます。人間の気合ではなく、自動停止で守ります。

AI時代の視点

AI駆動開発(バイブコーディング)とAI活用が前提になると、コスト管理は人間が最適化するからAIが常時提案・自動適用するフェーズへ移行します。AWS Cost Anomaly Detection や Compute Optimizer は既にAIベースで、「異常検知 → 原因特定 → 推奨 → 自動適用」の流れが標準化しつつあります。

AI時代に有利AI時代に不利
タグ規約とIaC手動プロビジョニング
標準的なサービス構成独自の変則構成
使用量メトリクスの自動取得監視未整備
LLM使用のトークン管理無制限プロンプト

一方でAI自身の利用コストが新しい管理対象になります。LLM APIは月数百万規模になりやすく、プロンプトキャッシュ・モデル選定・ユーザー単位の上限設定が新しいFinOpsの柱です。

AI時代はAI利用コスト自体FinOpsの中心論点になります。

よくある勘違い

  • 「最適化は運用開始後に考えれば良い」 → 後からアーキテクチャは変えられません。設計段階で料金モデルを織り込むのが鉄則。甘い選択の代表格
  • 「RIを買えば節約になる」 → 使わなければ損失です。カバレッジと使用率を監視せずに大量購入して無駄にする事例が頻発
  • 「マネージドサービスは高い」 → 単価は高いですが、運用工数・障害対応を含めたTCOでは安いことが多い。人件費込みで判断する
  • 「開発環境のコストは無視していい」 → 開発・検証環境の合計が本番を超える事例は珍しくありません。夜間停止・自動削除は必須

年末年始を挟んだ請求書(業界事例)

ある開発チームが年末のリリース対応で慌ただしく働き、動作確認用に立てた数台のGPUインスタンスを「後で止めよう」と思いながら年末年始の休暇に突入した。という事例があります。年始に出社してコスト画面を開いた瞬間、通常の月の10倍超の請求が出ており、犯人はあの止め忘れたGPUインスタンスだった、という話です。

検証用に立てた r5.2xlarge を土日に止め忘れて数万円溶かした、という個人開発者のエピソードもよく聞きます。数万円なら笑い話で済みますが、GPU インスタンスで数十万になると笑えません。

教訓は、「『後で止めよう』は人間の意思に依存していて、ほぼ必ず破綻する」ということです。開発・検証環境はタグ + 自動停止スクリプトで夜間・週末に強制停止する仕組みを最初から組み込むべきです。コストは気合ではなく、設計で守る。

止め忘れを叱るより、止まる仕組みに倒します。

決めるべきこと — あなたのプロジェクトでの答えは?

以下の項目について、あなたのプロジェクトの答えを1〜2文で言語化してみてください。曖昧なまま着手すると、必ず後から「なぜそう決めたんだっけ」が問われます。

  • タグ規約(Environment・Project・Owner・CostCenter)
  • 予算上限とアラート(月額・週次)
  • 料金モデル選定(オンデマンド / RI / Savings Plans)
  • 開発環境の自動停止ポリシー
  • ログ保持期間とデータ削除ポリシー
  • コストレビューの頻度(週次 / 月次)
  • LLM・AIサービス利用の上限設計

よくある失敗

  • タグ無しで運用開始 → 誰が使っているか不明 ― タグ規約を最初に固めないと改善の起点が作れない
  • RIを大量購入したが使われず死に金に ― カバレッジと使用率の監視が前提
  • DEBUGログ垂れ流しで月100万超 ― INFOレベルに絞るだけで大幅削減
  • NAT GWが環境ごとに積み上がり隠れコスト化 ― 使っていない環境のNAT GWは即削除
  • LLM APIに上限なし → プロンプトループで一晩100万円 ― ユーザー単位の上限設定は最初から必須

最終的な判断の仕方

コスト管理の核心は「設計段階で料金モデルを織り込み、継続的に可視化する」という発想です。クラウドは使った分だけ請求される従量課金のため、設計判断が毎月の請求に直接響きます。

タグ規約を初期に決め、Inform(見える化)→ Optimize(最適化)→ Operate(運用化)の3フェーズで回すのが王道です。タグ無しのリソースは請求書上「不明コスト」として埋もれ、改善の起点すら作れません。短期的な節約より、構造的な最適化を選ぶのがアーキテクトの仕事です。

決定的な軸は「AI利用コスト自体をFinOpsの中心に据える」という要請です。LLM APIは一晩で月数百万に到達し得る新しい支出項目で、プロンプトキャッシュ・モデル選定・ユーザー単位の上限設定が運用の基本になります。

インフラ側もAWS Cost Anomaly Detection のようなAIベースの異常検知が標準化し、FinOpsは人力運用から自動最適化へ移行しつつあります。

選定の優先順位をまとめると次の通りです。

  1. タグ規約と可視化を最初に ― 見えなければ何も改善できない
  2. 設計段階で料金モデルを選ぶ ― 後から直すコストは巨大
  3. 規模に応じた管理レベル ― MVPに専任FinOpsは過剰、スケール期には必須
  4. AI利用コストを新しい主軸にLLM・AIエージェントの支出が中心論点に

「設計で織り込み、運用で磨く」FinOpsの本質は節約ではなく投資最適化です。

まとめ

本記事はクラウドコスト管理(FinOpsについて、請求膨張のパターン・3フェーズ運用・タグ戦略・規模別の管理レベル・LLM時代の論点まで解説しました。如何だったでしょうか。

タグ規約を最初に決め、設計段階で料金モデルを織り込み、規模に応じて運用化する。この順序で進めれば、請求書を開いて青くなる事故は防げます。

これで「システムアーキテクチャ」カテゴリ全11記事が完結しました。次回からは「ソフトウェアアーキテクチャ」カテゴリに入り、モノリス vs マイクロサービス、言語選定、API設計といったソフトウェアの内部構造の選定軸を解説していきます。

シリーズ目次に戻る → 『生成AI時代のアーキテクチャ超入門』の歩き方

それでは次の記事も閲覧いただけると幸いです。