本記事について
当サイトを閲覧いただきありがとうございます。 本記事はシリーズ『生成AI時代のアーキテクチャ超入門』の「ケーススタディ」カテゴリ追補として、AIプロダクト・スタートアップのケースを解説する記事です。
LLM(大規模言語モデル)を中核に据えたプロダクトは、「モデル選定」「推論コスト」「ハルシネーション」「Eval(評価)」という4つの新しい論点を抱えます。本記事ではモデルベンダー選定、RAG設計、推論コストの管理、データ整備の優先順位、AI固有の評価設計を整理します。
本記事のテーマについてさらに詳しく知りたい方は『AWSの基本・仕組み・重要用語が全部わかる教科書』・『AIを使って考えるための全技術』も参考にしてみてください。
そもそもAIプロダクトのアーキテクチャとは何か
AI搭載の家電を想像してください。従来の家電は「ボタンを押せば同じ結果」でしたが、AI家電は「入力によって出力が毎回変わる」「たまに間違える」「動かすたびに電気代がかかる」という、従来とは根本的に異なる性質を持ちます。
AIプロダクトのアーキテクチャも同じで、モデル選定・推論コスト・ハルシネーション対策・評価設計という、従来のソフトウェアにはなかった4つの新しい論点を設計に組み込む必要があります。
もし従来のWebアプリと同じ感覚で作ると、推論コストで赤字になる・ハルシネーションでユーザーの信頼を失うといったAI固有の落とし穴にはまります。
なぜAIプロダクト特有の設計が必要なのか
従来のソフトウェアにはなかった論点が加わるから
従来のWebアプリは「入力→処理→出力」が決定的でしたが、LLMを組み込むと出力が毎回変わる・たまに間違える(ハルシネーション)・動かすたびにコストがかかるという、根本的に異なる性質が加わります。これらをアーキテクチャレベルで設計に織り込まないと、品質とコストの両方で破綻します。
推論コストがスケールと同時に爆発するから
従来のアプリはユーザー増加に対してインフラコストが緩やかに増えますが、LLMベースのプロダクトはユーザー数×トークン数でコストが直線的に爆発します。MVP段階の月数万円が、PMF後に月数千万円まで膨れる例は珍しくありません。プロンプトキャッシュ・モデル分岐・RAGによるコンテキスト圧縮を設計段階で組み込む必要があります。
品質評価の手法が従来と根本的に異なるから
従来のテストは「期待値と一致するか」で判定できましたが、LLMの出力は正解が一意に定まらないため、Eval(評価)の設計自体が新しい技術課題です。人間評価・LLM-as-a-Judge・統計的指標を組み合わせた評価パイプラインが必要になります。
AIプロダクトの4大論点
モデル選定の判断軸
2026年時点の主要LLMの位置付けです。用途・コスト・ロックイン耐性で住み分けます。
| モデル | 強み | 弱み | 使いどころ |
|---|---|---|---|
| Claude (Anthropic) | 長文・コーディング・推論精度 | 画像生成は別途 | 業務ツール・エージェント |
| GPT (OpenAI) | エコシステム最大・マルチモーダル | レート制限が厳しい時期がある | 汎用・画像 |
| Gemini (Google) | 100万トークンコンテキスト・低コスト | エージェント周辺の成熟度 | 大量文書処理 |
| OSS (Llama/Mistral等) | 自社ホスト・データ持ち出さず | 運用コスト高・モデルが追いつかない | 機密データ・規制業種 |
| Azure OpenAI Service | エンタープライズ契約・SLA・データ滞留 | OpenAI 直契約より高め | 大企業のChatGPT利用 |
新規スタートアップはClaude or GPT を主軸、Gemini を長文ジョブ用、OSSは規制業務だけが現実解。「複数モデル抽象化」を先回りして自作するのは過剰設計の典型です。LiteLLM等の薄いルーターで十分です。
推論コストの構造
LLMコストは入力トークン × 出力トークン × ユーザー数で爆発します。MVP段階で月数万円が、PMF後に月数千万円まで一気に膨れ上がる例が珍しくありません。
| 段階 | 月間コスト目安 | 主な施策 |
|---|---|---|
| MVP(〜1000ユーザー) | 数千〜数万円 | プロンプト圧縮・キャッシュ |
| 成長期(〜10万ユーザー) | 数十万〜数百万円 | プロンプトキャッシュ・モデル分岐 |
| スケール期(10万〜) | 数百万〜数千万円 | 複数モデル使い分け・自社ファインチューニング |
具体策は次の3つが効きます。
- プロンプトキャッシング(Claude/GPTの公式機能)で繰り返し部分のコストを90%削減
- モデル分岐(小タスクは Haiku/GPT-mini、複雑タスクは Opus/GPT-4 系)
- RAGでコンテキスト圧縮(全文渡しではなくTop-K抽出)
「とりあえず最強モデルで全部処理」は資金ショートの典型ルートです。
RAG(Retrieval-Augmented Generation)設計
社内文書・FAQ・商品マスタ等を扱う場合、RAG が事実上の標準です。「LLM単体に全部持たせる」のは精度・コスト・更新性の全てで詰みます。
| 構成要素 | 推奨 |
|---|---|
| ベクトルDB | pgvector(PostgreSQL拡張) / Pinecone / Weaviate |
| 埋め込みモデル | text-embedding-3-small / OSS の bge-m3 |
| 検索 | ハイブリッド(ベクトル + BM25) |
| リランカー | Cohere Rerank / 自前 Cross-Encoder |
| 引用表示 | 必須(ハルシネーション抑制 + 信頼形成) |
「とりあえず ChatGPT API に全文投げる」からのアップグレードパスとして、まず pgvector で始めるのが2026年の鉄板です。
ハルシネーションとガードレール
LLMは「もっともらしい嘘」を生成します。プロダクトに載せる以上、これを構造で抑え込む設計が必須です。
| 対策 | 内容 |
|---|---|
| RAG + 引用 | 根拠文書を必ず提示、未掲載なら回答しない |
| Structured Output | JSON Schemaで出力を縛る |
| Guardrails層 | 個人情報・暴言・禁止話題のフィルタ |
| Confidence表示 | 「自信度が低い」を明示してエスカレーション |
| Human-in-the-loop | 重要判断は人間レビューを挟む |
医療・法務・金融のようなクリティカル領域は原則 Human-in-the-loop 必須。AIは下書き作成までで、最終判断は人間が下す設計に倒します。
Eval(評価)設計
AIプロダクトは「動いているように見える」状態でも、実際には品質が劣化していくことがあります。Eval がCI/CDに組み込まれていないAIプロダクトは、本番障害が顕在化しません。
| Eval種別 | 内容 | ツール |
|---|---|---|
| オフライン Eval | 過去の質問・期待回答セットで自動評価 | Promptfoo / OpenAI Evals / LangSmith |
| オンライン A/B | 本番で複数プロンプト・モデルを比較 | LaunchDarkly + 内製 |
| LLM-as-a-Judge | 別の強いLLMが採点 | GPT-4o / Claude Opus |
| 人手 Eval | サンプリングして人間が評価 | 内製 + アノテーションツール |
| ユーザーフィードバック | 👍/👎 ボタン・コメント収集 | Sentry / Posthog |
オフラインEvalはPRごとに自動実行するのがあるべき姿で、回帰検知の自動化なくしてLLM運用は崩壊します。
推奨スタック
| 領域 | 推奨 |
|---|---|
| LLM API | Claude API / OpenAI API(複数同時契約推奨) |
| エージェント基盤 | LangGraph / Mastra / 自前 |
| ベクトルDB | pgvector(小〜中規模)/ Pinecone(スケール) |
| Eval | Promptfoo + LangSmith |
| 観測(LLM特化) | LangSmith / Helicone / Phoenix |
| プロンプト管理 | Git管理 + テンプレート |
| 課金(ユーザー側) | Stripe + 利用量メトリクス |
| 言語 | TypeScript / Python |
| ホスティング | Vercel / Cloud Run / Modal |
決めるべきこと — 自分のプロジェクトでの答えは?
| 項目 | 選択肢の例 |
|---|---|
| 主モデル | Claude / GPT / Gemini / OSS |
| 副モデル(コスト最適) | Haiku / GPT-mini / Gemini Flash |
| ベクトルDB | pgvector / Pinecone / Weaviate |
| ハルシネーション対策 | RAG + 引用 / Structured / 人間レビュー |
| Eval戦略 | オフライン / A/B / LLM-as-Judge |
| データ滞留要件 | API直接 / Azure OpenAI / OSSセルフホスト |
| 課金モデル | サブスク / 従量課金 / ハイブリッド |
| プロンプト管理 | Git管理 / 専用SaaS |
やってはいけないこと
| 禁じ手 | なぜダメか |
|---|---|
| モデル抽象化を先回りで自作 | LangChain乱用と同じ罠、薄いルーターで十分 |
| 「とりあえず最強モデル」で全タスク | 推論コスト10倍、Haiku/Flash で済むタスクが大半 |
| Eval なしで本番運用 | プロンプト変更で品質劣化が見えない |
| 引用なしの自由記述出力 | ハルシネーションで信頼失墜、SLA違反リスク |
| 個人情報・機密をプロンプトに直接 | データ滞留・学習リスク、マスキング必須 |
| LLM呼び出しに同期処理だけ使う | レート制限・タイムアウトで詰む、Job Queue が必須 |
| エージェントの暴走を制御せず本番へ | 無限ループで請求書爆発、最大ステップ・予算上限を必ず設定 |
| データ品質を後回しでRAG構築 | ゴミデータ → ゴミ回答、データ整備が先 |
| 「とりあえず最強モデルで全部処理」と贅沢 | 推論コスト10倍、Haiku/Flash で済むタスクが大半 |
| 「Evalなしで本番運用」と品質放置 | プロンプト変更で品質劣化が見えない、回帰検知の自動化必須 |
AI判断軸
| AI有利 | AI不利 |
|---|---|
| データ品質・整理度 | 「とりあえずモデルで殴る」 |
| プロンプト・Eval をGit管理 | プロンプトを管理画面で編集して履歴消失 |
| プロンプトキャッシング・モデル分岐 | 全タスクで最強モデル |
| Structured Output/引用付き | 自由記述で全部任せる |
| ユーザーフィードバックループ | 一方通行のリリース |
- データ整備とEvalを最優先 — モデル選定より先
- モデルは Claude/GPT 主軸 + 副モデル — マルチプロバイダで耐障害性
- RAG + 引用 — ハルシネーション抑制の標準装備
- コスト管理機構を最初から — キャッシュ・分岐・上限設定
Eval(評価ループ)がAIプロダクトの品質管理の核になる
従来のソフトウェアではユニットテストとE2Eテストが品質の基盤でしたが、AIプロダクトではこれに加えてEval(LLM出力の評価)が品質管理の核になります。LLMの出力は非決定的であるため、同じ入力に対して毎回同じ出力が返る保証がなく、従来のテスト手法だけでは品質を担保できません。
Evalの設計では以下の3層構造が実用的です。
- 自動Eval: 出力形式の検証(JSONパース可能か、必須フィールドがあるか)
- LLM-as-Judge: 別のLLMに出力品質を採点させる(コスト低で大量実行可能)
- 人間Eval: ビジネス判断が必要なケース(正確性・適切性・ブランドトーン)
これらをCI/CDパイプラインに組み込み、モデル変更・プロンプト変更のたびに自動実行する仕組みを初期から構築しておくと、品質劣化を早期に検知できます。
プロンプトとモデル設定のバージョン管理
AIプロダクトのプロンプトは頻繁に変更される「コード」であり、管理画面のテキストエリアで編集して履歴が消える運用は致命的です。プロンプトをGitリポジトリで管理し、変更のたびにEvalが自動実行される仕組みにしておくと、「いつ・誰が・何を変えて・品質がどう変わったか」を追跡できます。
モデルの選定(Claude/GPT/Gemini等)やパラメータ(temperature、max_tokens)も設定ファイルとしてGit管理し、環境変数で切り替えられるようにしておくと、A/Bテストやフォールバック切り替えが容易になります。本番環境でモデル障害が発生した際に、設定ファイルの1行変更で副モデルに切り替えられる構成は運用上の安全弁になります。
この記事に関連する記事
まとめ
本記事はAIプロダクト・スタートアップのケースについて、モデル選定・推論コスト・RAG・ハルシネーション・Evalまで含めて解説しました。如何だったでしょうか。
データと評価ループで勝ち、モデルは複数主軸、RAGと引用で信頼を作り、コスト構造を最初から設計する。これが2026年のAIプロダクトの現実解です。
これで「ケーススタディ」カテゴリの追補3記事(公共・モバイル・AIプロダクト)が揃い、規模軸(startup/saas/enterprise)と業種軸(public/mobile/ai-product)の両面から自分のプロジェクトを位置づけられるようになります。
シリーズ目次に戻る → 『生成AI時代のアーキテクチャ超入門』の歩き方
本記事で扱った内容の詳細は AWS 機械学習 も合わせて参考にしてください。
それでは次の記事も閲覧いただけると幸いです。
📚 シリーズ:生成AI時代のアーキテクチャ超入門(86/89)

