ほとんどのエンタープライズAIは3つのテストに落ちる。そのフレームワークとは

4 min read

—Updated Jun 04, 2026

Patrick van de Werken

Head of EMEA, DevRev

Patrick van de Werken

Head of EMEA, DevRev

テスト1：精度 – この回答をCFOに見せられますか？

「この回答はもっともらしいか？」ではありません。それはエンタープライズソフトウェアにとって驚くほど低いハードルです。本当のテスト：AIが回答を出した時、それがどこから来たか正確に示せますか？

ほとんどのAIシステムは、正しく聞こえる回答を生成します。エンタープライズスケールでは、それでは不十分です。AIが営業担当に更新がリスクにさらされていると伝えた場合 – その判断の根拠となった正確なサポートチケット、エンジニアリングの遅延、契約条件まで辿れますか？それとも「データのパターンに基づいて」 – つまり「自信を持って推測しています」の言い換えですか？

アーキテクチャの分岐点：

精度は後から追加する機能ではありません。データがいつ構造化されるかの帰結です。

AIがクエリ時にコンテキストを組み立てている場合 – 5つのシステムから断片をフェッチして正しいピースを取得できることを祈る – 精度は確率的です。同じ質問でも、モデルがたまたま何を検索したかによって異なる回答。データの関係性が質問前にマッピングされている場合 – 顧客からチケットへ、プロダクトへ、契約へ、エンジニアリングステータスへ – すべての回答に明示的な出所があります。同じ質問に同じ回答。毎回。決定論的で、引用付きで、監査可能。

What to ask: "Show me the same business question answered twice. Are the answers identical? Can you trace both to their source records, at the field level, respecting my permission model?"

テスト2：効率性 – データが倍になったら何が起きますか？

ベンダー評価でめったに登場しないが、AI投資の経済性全体を決定する質問があります：データが増えると、クエリあたりのコストは横ばいですか？それともデータとともに増加しますか？

今日の支配的なアーキテクチャは、ブルートフォースのコンテキストローディングです。生データをプロンプトウィンドウに取り込む。処理する。レスポンスを生成する。デモスケールでは、これは見えません。エンタープライズスケールでは、逆のインセンティブを生み出します：組織がより多くのデータを生成するほど – そしてより多く生成します – すべてのAIインタラクションがより高コストになります。

これが破綻する場面：

ヨーロッパのプロフェッショナルサービスクライアントは、従業員がシステム間の情報検索に時間の20%を費やしていると算出しました – 従業員一人あたり年間12,000ユーロ以上の生産性損失です。彼らの直感はより良い検索ツールを購入することでした。しかし断片化されたデータの上にAIを重ねることは、AIが人間がやっていたのと同じ高コストの作業をしているだけということです。より速く、はい。しかし増加するトークンコストで、構造的な改善なしに。

これはまた、「ビルドvs.バイ」の罠がヨーロッパのエンタープライズでこれほどの予算を消費する理由でもあります。ロンドンのデータ照合企業が18ヶ月間これを探求するのを見てきました。金融サービスグループが、5つの内部チームが共有データアプローチに合意できず400日かけてクローズ。イタリアのエネルギー企業が、規制の複雑さが新しいデータパイプラインを必要とする新しい要件を次々と表面化させ、178日のサイクル。

根本原因は常に同じです：共有メモリなしでは、新しいユースケースごとに独自の同期ロジック、独自のメンテナンス負荷、独自のコストセンターが必要です。2番目のユースケースのコストは1番目と同じ。3番目はさらに高い、今度は調整が必要だからです。

アーキテクチャの分岐点：

AIがクエリごとにデータモデルを再学習するのではなく、事前に構造化された関係性をナビゲートする場合、コストはデータのボリュームではなく回答の複雑さに比例してスケールします。グラフは質問あたりの処理を増やすことなく新しい情報を吸収します。それがフラットなコスト曲線と指数関数的なコスト曲線の違いです。

What to ask: "What's my cost per query today? What will it be when my data volume doubles in 18 months? Show me the architecture that makes that possible - not the pricing model that hides it."

テスト3：安全性 – 深夜2時に問題が起きたら、2時1分までに元に戻せますか？

AIは質問に答えることからアクションを取ることに移行しています。そこに真の価値があります – チケットを解決するサポートAI、パイプラインフィールドを更新するセールスAI、作業をルーティングし顧客に通知するオペレーションAI。しかし、すべての自律的なアクションは潜在的な障害点です。

問題は、AIがミスをするかどうかではありません。します。問題は：ミスした時の爆発半径はどのくらいか？

譲れない要件：

すべてのアクションを実行前にステージング。発火前にレビュー。
すべてのアクションをバージョン管理。何が、いつ、なぜ変わったかを確認。
すべてのアクションを可逆に。数日ではなく数秒で元に戻す。

これはデータベースが数十年間持っていたのと同じトランザクショナルガバナンスです。問題は、AIプラットフォームがその保証をAI駆動のアクションにまで拡張しているか – それともエージェントがそれらの外で完全に動作しているかです。

なぜヨーロッパのエンタープライズはここで妥協できないか

GDPRは顧客に影響する自動化された意思決定に対する実証可能な管理を要求しています。EU AI法の規定はAI駆動のアクションに対する監査可能性要件を強化しています。私がヨーロッパ各地で参加する購買委員会は、すべてのエージェント型AI評価をCISO、調達、法務を通じてルーティングしています。テクノロジーを信じていないからではなく – 誰も彼らの4つの質問に説得力を持って答えていないからです：どうやって止めるか？どうスコープを限定するか？どう監査するか？どう元に戻すか？

私たちが協力する企業は、安全性が「あれば良い」かどうかを議論していません。規制上のエクスポージャーを作らずにデプロイできるかどうかを問うています。

What to ask: "Show me the audit trail. Show me the rollback. If your AI agent writes a wrong value to my CRM at 2 AM on Saturday, show me exactly how my team undoes it by 2:01 AM without escalating to your engineering team."

テストの背後にあるテスト：インテリジェンスは複利的に蓄積するか？

精度、効率性、安全性は必要です。しかし、それだけでは十分ではありません。真の差別化要因は、3つすべてが1つの共有基盤の上で解決された時に何が起きるかです。

今日のほとんどのエンタープライズの姿を考えてみてください：サポートは1つのAIツールを使い、セールスは別のを使い、オペレーションは3番目、ITは4番目。それぞれが独自のデータサイロ、独自のコスト構造、独自の制限を持っています。サポートAIはエンジニアリングが修正をリリースしたことを知りません。セールスAIはアカウントに3つのエスカレーションされたチケットがあることを知りません。オペレーションは「2週間の遅延がコミットメントにどう影響するか？」に答えられません。データが4つの断絶されたシステムにまたがっているからです。

これがパラドックスです：組織はこれまで以上にAIに投資しているのに、そこから得られる複利的な価値は少なくなっています。すべてのポイントソリューションがゼロから始まります。すべてのコンテキストウィンドウがレスポンス後に閉じます。何も持ち越されません。

代替案：顧客とのやり取り、エンジニアリングステータス、セールスパイプライン、運用メトリクスを接続する1つの共有メモリ。サポートがチケットを解決すると、その解決がセールスに利用可能なナレッジを豊かにします。エンジニアリングが修正をリリースすると、顧客に通知されます。営業担当がミーティングの準備をすると、ブリーフィングにはサポートヘルス、エンジニアリングデリバリー、契約リスクが含まれます – 1つのクエリで、数分で。

複利効果が経済的な堀です。最初のユースケースは売れます。2番目は自ら売れます。グラフはより豊かになります。追加機能あたりのコストが下がります。18ヶ月の蓄積された組織インテリジェンスの後、競合他社が生コンテキストローディングから始めてレプリケートできないものを構築しています。追いつくには何年もの意思決定を再生する必要があるでしょう。

評価フレームワーク

プラットフォームの意思決定の真っ最中にいるなら、以下の質問をチャレンジとして提案します：

	Precision	Efficiency	Safety
The test	Same question returns same answer? Cited, traceable, permission-aware?	Cost trajectory flat as data doubles? Pre-structured traversal, not re-learning?	Every action staged, versioned, and reversible?
The proof	Prove accuracy in a 4-week POC. Not a demo. A POC on your data.	Show the cost curve at 2x and 10x data volume.	Demonstrate rollback of an AI-taken action in under 60 seconds.
The compounding test	Does the answer get better because of what support resolved last week?	Does use case #2 cost less than use case #1?	Does the audit trail span all AI actions across the platform, not just one tool?

痛みが最も大きい場所から始めてください。四半期ではなく、週単位で価値を証明してください。そして2番目のユースケースが来た時に何が起きるか注目してください – メモリが既にそこにある時。

これはThe AI Platform Paradoxのエグゼクティブサマリーです – 精度、効率性、安全性を単一のプラットフォーム上で可能にする3層アーキテクチャ（継続的同期、コンテキストメモリ、基盤サービス）の完全な探求です。これらの質問が響いたなら、より深い視点がアーキテクチャのhowに踏み込みます。こちらからダウンロード。