Provarの最新の製品アップデートはこちら:Winter'26 Release 1 (外部サイトに接続します)

ADOC x Provar

Agentforceテストにおけるシングルターン検証の課題と、マルチターン自動テストの必要性

SalesforceのAIエージェント「Agentforce」は、単なるチャットボットの枠を超え、業務を実行する“実務エージェント”として活用され始めており、こうしたAIエージェントの品質を支えるのが自動テスト環境です。Salesforceは純正ツールとして「Agentforce Testing Center(テストセンター)」を提供し、AIの品質検証を可能にしています。一方、ProvarはSalesforce専用設計のAIテスト自動化ツールとして、Agentforceの検証にも対応しています。

両者の最も基本的な相違は、テストセンターが「シングルターン検証」を中心とするのに対し、Provarは「マルチターン検証」に本格対応している点にあります。本ブログでは、主にこの「シングルターン」と「マルチターン」の違いに焦点を当てながら、テストセンターの特性と課題、そしてSalesforceネイティブなテスト自動化ソリューションの優位性を分かりやすく解説します。

テストセンターが得意とする「シングルターン検証」とは

Agentforceテストセンターは、1つの入力に対するAIの1回の応答を検証する“シングルターンテスト”を役割とするツールです。たとえば、

●この質問に対して正しい回答が返るか
●プロンプト通りの文言を生成しているか
●NGワードや不適切な表現を含んでいないか

というように、AI単体の応答品質をピンポイントで確認する用途に非常に適しています。特に、プロンプト設計の初期段階や、回答精度をチューニングしているフェーズでは、シングルターン検証は欠かせません。このようにテストセンターは主に、「このAIは正しく受け答えできるのか」「想定どおりの回答を返せるのか」
など、AIそのものの品質を確認するための“単体検証ツール”としての価値に重きを置いています。

現在のテストセンターは“最低限の単体検証の第一歩”であり、完全な会話品質保証を目的としたものではないという位置づけです。Agentforceの本命は、複数ターンにわたって対話しながら業務を完結させる実務エージェントであり、テスト環境はまだ発展途上にある、というのがSalesforce自身の認識だと言えます。

現場の実感は「シングルターンでは運用に耐えない」

実際にAgentforceの導入やPoCを進めている企業のエンジニアやパートナー開発企業からは、より率直な評価が聞こえてきます。

●「実際の業務では5〜10ターン以上の会話が普通」
●「1問1答だけでは合格基準を決められない」
●「会話の流れや文脈変化がまったく検証できない」といった声が代表例です。

特に問題視されているのが、文脈の保持、途中修正、例外処理といった実務で必ず発生する”揺らぎ”をテストできない点です。単発の正解率が高くても、数ターン後に意図を取り違えれば、それは業務システムとして致命的な欠陥になりかねません。しかしシングルターン検証では、こうしたトラブルの芽を事前に摘むことが難しいのです。

実務のAIエージェントは「必ずマルチターンで動く」

このように、実際にAgentforceを業務に組み込む際には、会話は必ず複数のターンにまたがります。たとえば顧客対応では、

「契約内容の確認がしたい」
「ご本人確認のためにお名前を教えてください」
「〇〇です」
「ありがとうございます。ご契約プランはAプランですね」
「はい、そうです」
「更新日は来月〇日です」

というように、前の会話内容を前提としたマルチターンのやり取りが連続します。ここで重要なのは、AIが単発で正しい回答を返せるかどうかではなく、「前の文脈を正しく理解し、次の応答に反映できているか」という点です。しかしテストセンターのシングルターン検証では、文脈の引き継ぎや複数の質問にまたがる意図の変化、途中で発生する条件分岐といった、マルチターン特有の挙動をまとめて検証することはできません。

実務のタスクは、複数ステップで進行し、途中で利用者の意図が変わり、誤解と修正のやり取りを挟みながら進んでいきます。こうした“流れていく文脈”の中で正しく振る舞えるかどうかこそがAIエージェントの真価であり、シングルターン検証はあくまで基礎体力の確認にすぎないのです。

シングルターン検証では見えない不具合が、本番で顕在化する

シングルターン検証はAIの基礎体力を確認する上で非常に有効ですが、それだけで本番運用に進むと、次のような問題が後から表面化します。

●最初の質問には正しく答えるが、2問目で意図を取り違える
●ユーザーの追加情報を正しく引き継げない
●会話の途中でまったく関係のない回答を返してしまう
●本来進むべきフローとは別の分岐に入ってしまう

これらはすべて、「1問1答」では発見できない、マルチターン特有の不具合です。実ビジネスにおけるAIエージェントの信頼性は、単発の正解率ではなく、会話全体を通した一貫性と安定性によって決まります。

Provarは「マルチターンの会話そのもの」をテストできる

Provarの最大の特長の一つは、このマルチターンの会話を、そのままテストシナリオとして再現・自動化できる点にあります。Provarでは、ユーザーの最初の入力 → AIの応答 → それに対する追加質問 → 条件に応じた分岐 → 最終的な回答といった一連の対話の流れを1つのテストケースとして定義できます。これにより、

●文脈が正しく維持されているか
●途中で意図解釈がブレていないか(揺らぎの発生)
●条件分岐が想定どおりに動作しているか

といった、実際の会話と同じ流れで検証することが可能になります。この点が、テストセンターではカバーできない、Provarの最も本質的な優位点です。

マルチターン検証ができて初めて“業務で使えるAI”になる

前述のとおり、AIエージェントは単に「答えられる」だけでは不十分です。業務システムとして使う以上、以下のようなケースにおいて、“対話制御の品質”こそが実務における適性を左右します。

●会話の流れに沿って正しい処理に誘導できるか
●誤った入力に対して適切に再質問できるか
●途中で条件が変わっても、正しいルートに復帰できるか

このように、Provarのマルチターン検証は、この“対話制御”を丸ごとテストできる点に真の価値があります。

現在ユーザーが抱える懸念の一つは、シングルターン検証では本番で起こりうるトラブルを十分に防ぎきれないという点です。途中で文脈が崩れたり、最終回答だけは正しくても、過程の誘導が誤っていたりするケースは珍しくありません。さらに、プロンプトを少し変更しただけでも影響範囲を追跡できず、回帰テストが事実上不可能になるという問題も生じます。その結果、テストセンターの結果と実運用の挙動に乖離が生まれ、現場の不安と手戻りだけが増えていきます。

Provarは“マルチターンの延長線上”にあるE2Eテストを実行

ProvarはもともとSalesforceのエンドツーエンド(E2E)テストに強みを持つツールであるため、マルチターンの会話の結果として実行される業務処理とデータ更新まで含めて、システム全体を一気通貫で検証することができます。

ここで初めて、次のポイントが同時に保証されます。

●「会話が正しいだけでなく、業務処理も正しく動いている」
●「条件分岐の結果として、正しいレコード更新が行われている」
●「外部連携を含めた業務フロー全体が破綻していない」

実際には、マルチターンの会話の結果として、Salesforceのデータが更新される → FlowやApexが動作する → Caseやレコードが作成される、という一連の流れが発生します。Provarは、この「マルチターンの会話の“結果として発生する“外部連携を含む一連の業務処理」まで含めて検証できるため、最終的に高度なE2Eテストの自動化と堅牢な信頼性の保証へとつながります。

このようにProvarのマルチターン検証は、そのままAgentforceを起点としたE2E業務ワークフロー全体の信頼性保証につながるという点が、純正ツールのテストセンターとの決定的な違いです。

もちろん、テストセンターとProvarの関係は「用途の違い」であって「優劣」ではありません。Provarは、AIエージェントテストにおいて対話が実務として正しく成立しているかを保証するためのツールとして、マルチターン検証から本番運用前の品質検証、E2Eテストおよび回帰テストの自動化などにおいて、もはや不可欠な存在といえます。

まとめ:AIエージェント成功の基本は「マルチターン検証」の可否

Agentforceテストセンターは、AI単体のシングルターン検証という点で非常に有用です。しかし、実務で使われるAIエージェントの価値は、複数ターンにわたる会話の一貫性と安定性によって決まります。

その本質的な部分を検証できるのが、Provarのマルチターン対応テスト環境です。Provarは結果としてE2E全体の業務レベルの品質検証まで可能ですが、その根幹にあるのは、Salesforceネイティブなメタデータ駆動のアーキテクチャに加え、「会話の流れそのものを正しく検証できる」というマルチターン対応力にほかなりません。

AIエージェントを“賢いデモ”で終わらせるのか、“現場で安心して使える実務システム”に昇華できるのか。
その分岐点となるのが、シングルターン検証にとどまるのか、マルチターン検証まで実行できるのかという違いであり、その現実的な答えを持っているのがProvarなのです。