ケーススタディ

AIプロダクト・スタートアップ ― 推論コストとデータ整備が命 ― 生成AI時代のアーキテクチャ超入門

AIプロダクト・スタートアップ ― 推論コストとデータ整備が命 ― 生成AI時代のアーキテクチャ超入門

本記事について

当サイトを閲覧いただきありがとうございます。 本記事はシリーズ『生成AI時代のアーキテクチャ超入門』の「ケーススタディ」カテゴリ追補として、AIプロダクト・スタートアップのケースを解説する記事です。

LLM(大規模言語モデル)を中核に据えたプロダクトは、「モデル選定」「推論コスト」「ハルシネーション」「Eval(評価)」という4つの新しい論点を抱えます。本記事ではモデルベンダー選定、RAG設計、推論コストの管理、データ整備の優先順位、AI固有の評価設計を整理します。

本記事のテーマについてさらに詳しく知りたい方は『AWSの基本・仕組み・重要用語が全部わかる教科書』・『AIを使って考えるための全技術』も参考にしてみてください。

そもそもAIプロダクトのアーキテクチャとは何か

AI搭載の家電を想像してください。従来の家電は「ボタンを押せば同じ結果」でしたが、AI家電は「入力によって出力が毎回変わる」「たまに間違える」「動かすたびに電気代がかかる」という、従来とは根本的に異なる性質を持ちます。

AIプロダクトのアーキテクチャも同じで、モデル選定・推論コスト・ハルシネーション対策・評価設計という、従来のソフトウェアにはなかった4つの新しい論点を設計に組み込む必要があります。

もし従来のWebアプリと同じ感覚で作ると、推論コストで赤字になる・ハルシネーションでユーザーの信頼を失うといったAI固有の落とし穴にはまります。

なぜAIプロダクト特有の設計が必要なのか

従来のソフトウェアにはなかった論点が加わるから

従来のWebアプリは「入力→処理→出力」が決定的でしたが、LLMを組み込むと出力が毎回変わる・たまに間違える(ハルシネーション)・動かすたびにコストがかかるという、根本的に異なる性質が加わります。これらをアーキテクチャレベルで設計に織り込まないと、品質とコストの両方で破綻します。

推論コストがスケールと同時に爆発するから

従来のアプリはユーザー増加に対してインフラコストが緩やかに増えますが、LLMベースのプロダクトはユーザー数×トークン数でコストが直線的に爆発します。MVP段階の月数万円が、PMF後に月数千万円まで膨れる例は珍しくありません。プロンプトキャッシュ・モデル分岐・RAGによるコンテキスト圧縮を設計段階で組み込む必要があります。

品質評価の手法が従来と根本的に異なるから

従来のテストは「期待値と一致するか」で判定できましたが、LLMの出力は正解が一意に定まらないため、Eval(評価)の設計自体が新しい技術課題です。人間評価・LLM-as-a-Judge・統計的指標を組み合わせた評価パイプラインが必要になります。

AIプロダクトの4大論点

AIプロダクトの4大論点

モデル選定の判断軸

2026年時点の主要LLMの位置付けです。用途・コスト・ロックイン耐性で住み分けます。

モデル強み弱み使いどころ
Claude (Anthropic)長文・コーディング・推論精度画像生成は別途業務ツール・エージェント
GPT (OpenAI)エコシステム最大・マルチモーダルレート制限が厳しい時期がある汎用・画像
Gemini (Google)100万トークンコンテキスト・低コストエージェント周辺の成熟度大量文書処理
OSS (Llama/Mistral等)自社ホスト・データ持ち出さず運用コスト高・モデルが追いつかない機密データ・規制業種
Azure OpenAI Serviceエンタープライズ契約・SLA・データ滞留OpenAI 直契約より高め大企業のChatGPT利用

新規スタートアップはClaude or GPT を主軸、Gemini を長文ジョブ用、OSSは規制業務だけが現実解。「複数モデル抽象化」を先回りして自作するのは過剰設計の典型です。LiteLLM等の薄いルーターで十分です。

推論コストの構造

LLMコストは入力トークン × 出力トークン × ユーザー数で爆発します。MVP段階で月数万円が、PMF後に月数千万円まで一気に膨れ上がる例が珍しくありません。

段階月間コスト目安主な施策
MVP(〜1000ユーザー)数千〜数万円プロンプト圧縮・キャッシュ
成長期(〜10万ユーザー)数十万〜数百万円プロンプトキャッシュ・モデル分岐
スケール期(10万〜)数百万〜数千万円複数モデル使い分け・自社ファインチューニング

具体策は次の3つが効きます。

  • プロンプトキャッシング(Claude/GPTの公式機能)で繰り返し部分のコストを90%削減
  • モデル分岐(小タスクは Haiku/GPT-mini、複雑タスクは Opus/GPT-4 系)
  • RAGでコンテキスト圧縮(全文渡しではなくTop-K抽出)

「とりあえず最強モデルで全部処理」は資金ショートの典型ルートです。

RAG(Retrieval-Augmented Generation)設計

RAGアーキテクチャの基本構成

社内文書・FAQ・商品マスタ等を扱う場合、RAG が事実上の標準です。LLM単体に全部持たせる」のは精度・コスト・更新性の全てで詰みます。

構成要素推奨
ベクトルDBpgvector(PostgreSQL拡張) / Pinecone / Weaviate
埋め込みモデルtext-embedding-3-small / OSS の bge-m3
検索ハイブリッド(ベクトル + BM25)
リランカーCohere Rerank / 自前 Cross-Encoder
引用表示必須(ハルシネーション抑制 + 信頼形成)

「とりあえず ChatGPT API に全文投げる」からのアップグレードパスとして、まず pgvector で始めるのが2026年の鉄板です。

ハルシネーションとガードレール

LLM「もっともらしい嘘」を生成します。プロダクトに載せる以上、これを構造で抑え込む設計が必須です。

対策内容
RAG + 引用根拠文書を必ず提示、未掲載なら回答しない
Structured OutputJSON Schemaで出力を縛る
Guardrails層個人情報・暴言・禁止話題のフィルタ
Confidence表示「自信度が低い」を明示してエスカレーション
Human-in-the-loop重要判断は人間レビューを挟む

医療・法務・金融のようなクリティカル領域は原則 Human-in-the-loop 必須。AIは下書き作成までで、最終判断は人間が下す設計に倒します。

Eval(評価)設計

AIプロダクトは「動いているように見える」状態でも、実際には品質が劣化していくことがあります。Eval がCI/CDに組み込まれていないAIプロダクトは、本番障害が顕在化しません。

Eval種別内容ツール
オフライン Eval過去の質問・期待回答セットで自動評価Promptfoo / OpenAI Evals / LangSmith
オンライン A/B本番で複数プロンプト・モデルを比較LaunchDarkly + 内製
LLM-as-a-Judge別の強いLLMが採点GPT-4o / Claude Opus
人手 Evalサンプリングして人間が評価内製 + アノテーションツール
ユーザーフィードバック👍/👎 ボタン・コメント収集Sentry / Posthog

オフラインEvalPRごとに自動実行するのがあるべき姿で、回帰検知の自動化なくしてLLM運用は崩壊します。

推奨スタック

領域推奨
LLM APIClaude API / OpenAI API(複数同時契約推奨)
エージェント基盤LangGraph / Mastra / 自前
ベクトルDBpgvector(小〜中規模)/ Pinecone(スケール)
EvalPromptfoo + LangSmith
観測(LLM特化)LangSmith / Helicone / Phoenix
プロンプト管理Git管理 + テンプレート
課金(ユーザー側)Stripe + 利用量メトリクス
言語TypeScript / Python
ホスティングVercel / Cloud Run / Modal

決めるべきこと — 自分のプロジェクトでの答えは?

項目選択肢の例
主モデルClaude / GPT / Gemini / OSS
副モデル(コスト最適)Haiku / GPT-mini / Gemini Flash
ベクトルDBpgvector / Pinecone / Weaviate
ハルシネーション対策RAG + 引用 / Structured / 人間レビュー
Eval戦略オフライン / A/B / LLM-as-Judge
データ滞留要件API直接 / Azure OpenAI / OSSセルフホスト
課金モデルサブスク / 従量課金 / ハイブリッド
プロンプト管理Git管理 / 専用SaaS

やってはいけないこと

禁じ手なぜダメか
モデル抽象化を先回りで自作LangChain乱用と同じ罠、薄いルーターで十分
「とりあえず最強モデル」で全タスク推論コスト10倍、Haiku/Flash で済むタスクが大半
Eval なしで本番運用プロンプト変更で品質劣化が見えない
引用なしの自由記述出力ハルシネーションで信頼失墜、SLA違反リスク
個人情報・機密をプロンプトに直接データ滞留・学習リスク、マスキング必須
LLM呼び出しに同期処理だけ使うレート制限・タイムアウトで詰む、Job Queue が必須
エージェントの暴走を制御せず本番へ無限ループで請求書爆発、最大ステップ・予算上限を必ず設定
データ品質を後回しでRAG構築ゴミデータ → ゴミ回答、データ整備が先
「とりあえず最強モデルで全部処理」と贅沢推論コスト10倍、Haiku/Flash で済むタスクが大半
「Evalなしで本番運用」と品質放置プロンプト変更で品質劣化が見えない、回帰検知の自動化必須

AI判断軸

AI有利AI不利
データ品質・整理度「とりあえずモデルで殴る」
プロンプト・Eval をGit管理プロンプトを管理画面で編集して履歴消失
プロンプトキャッシング・モデル分岐全タスクで最強モデル
Structured Output/引用付き自由記述で全部任せる
ユーザーフィードバックループ一方通行のリリース
  1. データ整備とEvalを最優先 — モデル選定より先
  2. モデルは Claude/GPT 主軸 + 副モデル — マルチプロバイダで耐障害性
  3. RAG + 引用 — ハルシネーション抑制の標準装備
  4. コスト管理機構を最初からキャッシュ・分岐・上限設定

Eval(評価ループ)がAIプロダクトの品質管理の核になる

従来のソフトウェアではユニットテストとE2Eテストが品質の基盤でしたが、AIプロダクトではこれに加えてEvalLLM出力の評価)が品質管理の核になります。LLMの出力は非決定的であるため、同じ入力に対して毎回同じ出力が返る保証がなく、従来のテスト手法だけでは品質を担保できません。

Evalの設計では以下の3層構造が実用的です。

  • 自動Eval: 出力形式の検証(JSONパース可能か、必須フィールドがあるか)
  • LLM-as-Judge: 別のLLMに出力品質を採点させる(コスト低で大量実行可能)
  • 人間Eval: ビジネス判断が必要なケース(正確性・適切性・ブランドトーン)

これらをCI/CDパイプラインに組み込み、モデル変更・プロンプト変更のたびに自動実行する仕組みを初期から構築しておくと、品質劣化を早期に検知できます。

プロンプトとモデル設定のバージョン管理

AIプロダクトのプロンプトは頻繁に変更される「コード」であり、管理画面のテキストエリアで編集して履歴が消える運用は致命的です。プロンプトをGitリポジトリで管理し、変更のたびにEvalが自動実行される仕組みにしておくと、「いつ・誰が・何を変えて・品質がどう変わったか」を追跡できます。

プロンプトの Git 管理+自動 Eval パイプライン レシピ帳と同じ。変更を記録し、毎回味見してから提供する Git リポジトリ(単一管理) prompts/ system.md / user.md / few-shot.md config/ model.yaml(Claude / GPT / Gemini) evals/ test_set.jsonl / golden.jsonl 管理画面で編集 → 履歴消失は致命的 PR 自動 Eval パイプライン Layer 1 自動 Eval: JSON パース・必須フィールド検証 Layer 2 LLM-as-Judge: 別 LLM が品質採点 Layer 3 人間 Eval: ビジネス判断(サンプリング) いつ・誰が・何を変えて・品質がどう変わったか 判定・運用 Deploy Rollback Eval スコアが閾値以上 → Go スコア低下 → 自動 Rollback A/B テスト config 1行変更でモデル切替 モデル設定ファイルの Git 管理 model.yaml primary: claude-opus / temp: 0.3 環境変数で切替 MODEL_ENV=prod A/B テスト traffic_split: 90/10 障害時フォールバック config 1行で副モデルに即切替 プロンプトもモデル設定も「コード」。Git + 自動 Eval で品質劣化を即検知

モデルの選定(Claude/GPT/Gemini等)やパラメータ(temperature、max_tokens)も設定ファイルとしてGit管理し、環境変数で切り替えられるようにしておくと、A/Bテストやフォールバック切り替えが容易になります。本番環境でモデル障害が発生した際に、設定ファイルの1行変更で副モデルに切り替えられる構成は運用上の安全弁になります。

この記事に関連する記事

まとめ

本記事はAIプロダクト・スタートアップのケースについて、モデル選定・推論コスト・RAG・ハルシネーション・Evalまで含めて解説しました。如何だったでしょうか。

データと評価ループで勝ち、モデルは複数主軸、RAGと引用で信頼を作り、コスト構造を最初から設計する。これが2026年のAIプロダクトの現実解です。

これで「ケーススタディ」カテゴリの追補3記事(公共・モバイル・AIプロダクト)が揃い、規模軸(startup/saas/enterprise)と業種軸(public/mobile/ai-product)の両面から自分のプロジェクトを位置づけられるようになります。

シリーズ目次に戻る → 『生成AI時代のアーキテクチャ超入門』の歩き方

本記事で扱った内容の詳細は AWS 機械学習 も合わせて参考にしてください。

それでは次の記事も閲覧いただけると幸いです。