AgentforceのPoCはなぜ失敗する？　テストの重要性とProvarの価値とは

Agentforceを使った高度な業務自動化に向けて、AIエージェント活用のPoC（概念実証）に取り組む企業や導入サービスが急速に増えています。一方で、PoCはある程度成功したはずなのに、

●本番で不具合が頻発する
●テストが回らずリリースが遅延する
●結局、人手の確認が増えている

といったリスクに直面することが少なくありません。その原因の多くは、Agentforce自体にあるのではなく、主にPoCにおける「テストの進め方」と「ツールの使い方」にあります。

このブログ記事では、「AgentforceのPoCをどう進めるべきか」、「どこまでをPoCで確認すべきか」、「Agentforce　Testing Center（テストセンター）とProvarの役割」について、分かりやすく解説します。

なぜAgentforceのPoCは「うまくいったのに失敗する」のか

従来のSalesforce開発では、画面が動くか、フローが通るか、またApexが期待通りかなど、PoCの指針は比較的シンプルでした。しかしAgentforceが介在することで、状況は一変します。これはAIが「考えて、判断し、次の行動を選ぶ」からです。

ここで多くのPoCが、無意識のうちに、「AIがそれらしい答えを返した」「エージェントが動いた」「業務が一応つながった」などの評価を優先しがちになります。これ自体はPoCとして間違いではありません。
ただし、AIエージェントを実務に展開するテストの観点としては致命的に足りないのです。

Agentforce PoCにおいて共有すべき前提

AgentforceのPoCにおけるテストでは、まず次の前提を共有する必要があります。

●AIの揺らぎを伴う判断は、テストの“期待値”にならない
●AIは毎回同じ判断をするとは限らない
●同じ質問でも、表現が変わることもありえる

つまり、「この文言が返ること」、「この推論になること」をテストで固定してしまうと、テストはすぐに壊れてしまいます。Agentforce PoCで検証すべきなのは、AIの判断ではありません。PoCで検証すべきは“結果”です。では、何を結果として検証すべきなのでしょうか。答えはシンプルです。

●Salesforce上に正しいデータが作られたか
●業務フローは最後まで成立したか
●想定外の分岐でも破綻しないか

つまり一連の「破綻のない結果」です。Agentforceはあくまで起点であり、業務の真実はSalesforce上の状態にあります。この視点を持てるかどうかで、PoCの質は大きく変わります。

Agentforceテストセンターはどこまで使えるのか

Agentforce には純正のテストセンターが用意されており、これは基本的に単一（シングルターン）検証のための有用なツールです。ただし、役割を正しく理解する必要があります。

下記はPoCでAgentforceテストセンターが得意な役割です。このように、「このエージェントは、どういう入力にどう反応するか」を見るには最適です。

●エージェント単体の動作確認
●プロンプトや設定の検証
●初期設計段階でのPoCで利用

ただし、ここに限界があります。Agentforce テストセンターは、「Salesforce全体を横断する」「複数エージェントが絡む」「回帰テストとして繰り返す」といった用途には向いていません。理由は単純で、複雑なマルチターン発話の検証の実行や、業務全体をテストする設計ではないからです。

PoCで見落とされがちな「多層エージェント」の現実

一方、本番のAgentforceは、ほぼ確実に、「エージェントAがデータを作成　→ エージェントBがそれを引き継ぐ → 別の自動処理が並行して動く」―このようになります。
PoCで単一エージェントしか見ていない場合、本番で初めて“壊れ方”を知ることになるかもしれません。PoCの段階で壊れ方を見ることが、ある意味、最大の価値といえます。

ここでProvarの役割が見えてきます。Provarは、実務レベルのマルチターン検証に対応していますが、AIの挙動だけをテストするツールではありません。Provarの本質はSalesforceを深く理解した独自のメタデータ駆動型のE2Eテスト基盤です。AgentforceのPoCにおいて、Provarが力を発揮するのは次の点です。

Provarが果たす役割①：「結果」を安定して検証できる

ProvarはSalesforceのオブジェクト（項目、関連性、Flow実行結果など）を直接理解します。そのため、AIの文言が変わっても、また実行順序が多少前後しても、業務結果が正しければテストは成功します。これは Agentforce時代の新しいテストにおいて、極めて重要です。

Provarが果たす役割②：E2E、マルチエージェントを前提にできる

Provarでは、以下をE2E（エンドツーエンド）で再現できます。

●複数のAgentforce起動を含むシナリオ
●Salesforceをまたいだ業務フロー
●データ競合や例外パターン

PoCの段階で、「本番で起きそうなややこしい状況」を小さく再現できることは、そのまま本番品質につながります。

Provarが果たす役割③：テストデータ運用を自動化できる

Agentforceテストでは、人が用意した静的なテストデータはすぐに破綻します。Provarによって、

●テスト開始時にデータを作成
●テスト中にAgentforceが更新
●テスト後に自動削除

という流れを自然に組み込めます。これはPoCで見落とされがちですが、実運用において回帰テストにスムーズ移行できるかどうかの分岐点です。

PoCがそのまま「最初の回帰テスト」になるか

ここが大切なポイントです。良いPoCとは、「一度動いたら終わりではなく、何度でも回せる」PoCが理想です。Provarで作られたPoCシナリオは、下記を実現できます。つまり、PoCへの投資を無駄にすることなく、貴重な資産になるのです。

●そのまま本番の回帰テストに引き継がれる
●シナリオを横展開することができる
●CI/CD環境に容易に接続できる

人とAI、そしてテストツールの役割

最後に、最も重要な視点は、すべてを自動化しようとしないことです。AgentforceのPoCでよくある失敗は、「AIもテストも全部自動化しよう」とすること。現状、正しい役割分担をこのように考えます。

●人が見るべきもの
―AIの判断の妥当性
―業務ルールの解釈

●自動化すべきもの
―業務が成立しているか
―データが壊れていないか
―回帰で壊れていないか

AIエージェントのPoCにおいて、Provarの役割は、人が考える余地を残すための自動化です。

まとめ：PoCの進め方が変わると、ツールの評価が変わる

AgentforceのPoCは、単なるAI会話の技術検証ではありません。

●本番で壊れることはないか
●変更やバージョンアップ時に回帰テストが回るか
●人が疲弊したり、リソースが不足しないか

を見極める工程です。その視点に立ったとき、Agentforceテストセンターは「設計・確認の場」であり、Provarは「業務の成立を守る基盤」という役割分担が、自然であることが分かります。もしPoCの段階で、このテストは将来も使えるだろうか、本番で同じことが起きても検証できるだろうかと感じたなら、それはProvarを検討するべきタイミングです。

Agentforce時代のテストは、「AIをどう動かすか」ではなく、「業務をどう守るか」という観点に変わっています。その変化を受け止める準備ができたとき、Provarの価値は、きっとはっきり見えてくるはずです。
なお、Provar製品を熟知するアドックインターナショナルは、Salesforce/AgentforceのPoCから運用を成功に導く技術サービスを提供しています。詳しくは「お問合せ（CONTACT）」までご相談ください。

よくある質問（FAQ）

Q1：Agentforceのテストが従来のSalesforceテストと異なる点は何ですか？

A：最大の相違点は「非決定性（確率による挙動の揺らぎ）」です。従来のテストは「入力に対して常に同じ出力」を期待する決定論的なものでしたが、AIエージェントは状況により応答が揺らぎます。そのため、単発の応答確認ではなく、データ整合性を含む業務フロー全体を網羅した検証が必要になります。

Q2：Agentforce Test CenterとProvarはどう使い分けるべきですか？

A：テストセンターは「モデル品質」、Provarは「業務品質」の担保に使い分けます。テストセンターはプロンプトの妥当性やガードレール検証に適しています。一方、Provarは複数回の対話（マルチターン）を通じた一連のビジネスプロセスや、Salesforceのレコード更新、外部連携を含む「エンドツーエンドの業務完遂」の検証に最適です。

Q3：AIエージェントの「マルチターン（複数回の対話）」テストはなぜ重要ですか？

A：実際の業務は一問一答ではなく、対話の積み重ねで完結するからです。ユーザーによる追加条件の提示や修正に対し、AIが文脈を維持して最終目的（レコード作成等）まで到達できるかを検証しなければ、実運用での「文脈喪失による業務失敗」を防ぐことはできません。

Q4：AIが「更新した」と回答しても、裏側のデータの誤りのリスクをどう防ぎますか？

A：Provarを活用した「データベースレベルの直接検証（アサーション）」が有効です。ProvarはAIの応答テキストだけでなく、自動でSalesforceのデータベース（SOQL）を参照し、項目値やステータスが仕様通りに更新されているかを突き合わせます。これにより、画面上は正しく見えてもデータが壊れている「サイレントエラー」を検知できます。

Q5：AgentforceのPoCで、テスト担当者が優先すべき作業は何ですか？

A：AIの「限界線」を特定し、人間が介在すべき領域を定義することです。あえて複雑な業務をテスト対象とし、Provar等のツールで大量のパターンを試行して、AIがどの条件で失敗するかを洗い出します。この「失敗の境界線」を明確にすることが、安全な運用のためのエスカレーションフロー構築に繋がります。