Salesforceは、昨秋、信頼性の高い自律型AIエージェントを業務フローに導入するためのデジタル労働力を生み出すプラットフォームであるAgentforceを発表。AIエージェントは、ソフトウェアの新しい概念であり、顧客や従業員の代わりに推論して行動するインテリジェントなシステムです。一方で、その可能性を最大限に引き出すには、AIエージェントを実際の運用環境において、中断することなく安定したテストおよび設定を継続していく必要があります。
堅牢で自動化されたテスト環境を構築することで、AgentforceにおけるAIエージェントのテストや動作、監視を高い拡張性と信頼性のもとで確実に実行し、あらゆる企業がAIエージェントの恩恵を享受することが可能となるのです。
今回のブログでは、Agentforceを構成するコンポーネント、AIエージェントのテスト手法における課題と検討事項、そして Provarによって「Agentforce Testing Center」を補完し、ビジネスプロセスを一貫してカバーするエンドツーエンド (E2E) のテストを実現するメリットについて解説します。
Agentforce Studioの構成要素
Agentforce Studioは、AIエージェントを効率的に作成および管理するために設計された SalesforceのAI駆動型自動化フレームワークです。これには、いくつかのコンポーネントが含まれます。
プロンプトビルダー (Prompt Builder) : ユーザーがさまざまなプロンプトテンプレートを作成およびテストが可能。これは、生成AIアプリケーションに役立つ
エージェントビルダー (Agent Builder) :さまざまなアクション、ワークフロー、カスタムApexスクリプトを実行できる、拡張チャットボットを作成するためのローコードツール
モデルビルダー (Model Builder) :カスタムAIモデルの開発と統合を可能にする
テストセンター (Testing Center) :さまざまな発話(自然言語による指示)とトピックのマッチングを使用し、AIエージェントをテストするためのソリューションツール
AgentforceはSlack、Google、OpenAIなどのAPI ともシームレスに統合され、Salesforceエコシステム内で安全かつ堅牢なAI自動化を実現することができます。
Agentforceテストにおける重要な用語
テスト方法論の解説に入る前に、いくつかの重要なキーワードの定義を明確にしておきましょう。
チャネル :電子メール、WhatsApp、体験サイトなど、AIエージェントが動作するさまざまな通信媒体
発話 (Utterance) :処理して対応することが求められるAIプロンプトのこと
トピック :発言を整理し、適切なアクションにルーティングするカテゴリ。
トピックアクション :API 呼び出しやデータベースの更新など、識別されたトピックに基づいて実行されるアクション
Atlas推論エンジン :Agentforceの背後にある AIロジックで、意図の決定、トピックのマッチング、アクションの実行を担当する
Agentforceが新たに生み出すテスト課題
革新的なテクノロジーには新しい課題が伴い、AI駆動型エージェントのテストには、従来のSalesforceテストとは異なる独自の課題が生じます。ここでいう新しい課題には、次のようなものがあります。
1.データの検証
AIエージェントがデータを正確に処理および検証していることを確認することは重要です。これにはデータの完全性と品質、指定されたAIプロンプトに対するデータの関連性の検証が含まれます。
2.スケーラビリティテスト
AIエージェントは、大量のトラフィックと大量のデータを効率的に処理しなければなりません。テストには大規模なパフォーマンスシミュレーションと、ストレス下での応答精度を評価するための負荷テストを含める必要があります。
3.目標の調整とAI幻覚 (hallucination) の予防
AIの応答は、予期しない逸脱を招くことなく、意図した結果と一致している必要があります。テストにはAI応答の正確性を評価すること、さらに幻覚 (AIが生成した誤った情報) を検出し、トラブルを回避できることを検証しなければなりません。
4.マルチエージェントインタラクション
多くのAIシステムは連携して動作します。テストを通じてエージェントがさまざまなワークフロー内で正しく対話すること、また複数のエージェントから構成されるマルチエージェントシステムのインタラクション全体にわたるデータの整合性を保証する必要があります。
5.倫理的制約とコンプライアンス
AIは社会インフラを支える電気・ガス・運輸などの規制産業において、特に倫理ガイドラインを遵守する必要が生じます。テストではセキュリティと倫理的制約の遵守、偏見や有害な行動の防止などに関する検証を行わねばなりません。
Agentforceのテスト手法の比較
1.Agent Builderによる手動テスト
Agent Builderは、AIエージェントを作成し、その応答を手動でテストするためのローコード環境を提供します。AIエージェントが実行するタスクを、自然言語による指示や追加の制限を含むトピックで定義することが可能となり、フロー、Apex、MuleSoft API、プロンプトテンプレートなどを活用してAIエージェントを実行することができます。
しかしながら、手動によるテストには次のような制限が伴います。
●テストに多くの時間を要し、工数などの負担が増大する
●自動化の範囲は、事前に定義されたテストケースに制限される
●信頼性の高いAIエージェントの評価に必要なスケーラビリティの欠如
2.Agentforce Testing Centerによるテスト
Agentforce Testing CenterはAI駆動型のテスト自動化に取り組み、次のことを実現します。
●シングル(単一)ターン検証: 個々のプロンプトに対して予想される応答のみテストを行う
●スケーラビリティ: 制御されたSandbox環境内のみで一括テストを実行する
●トピックとアクションの自動マッチング: AIエージェントがリクエストを正しくルーティングすることを保証する
また、現行のTesting Centerは完全な会話型フローではなく、主に個別の発話に焦点を当てているため、現実世界のやり取りを評価する能力が制限されます。
3.Provarによるエンドツーエンドのテスト
一方Provar は、手動テストと単一ターン検証の限界に対処するため、より包括的なテストアプローチを提供します。ProvarがAgentforceのテストにおいて提供する主な機能は次の通りです。
●ペルソナベースのテスト: Salesforce内のさまざまなユーザーロールに対して、AIエージェントが正しく機能することを確認する
●マルチチャネルテスト: さまざまな通信チャネルにわたる AIエージェントのインタラクションをテストする
●マルチステップテスト: 個別の応答ではなく、完全なAI駆動型ワークフローをシミュレートできる
●プロンプトバリエーションテスト: さまざまなユーザー入力に渡って、AIエージェントの精度を評価する
●応答評価: AIによって生成された応答が、期待される品質基準を満たしているかどうかを評価する
●会話評価: 完全な会話のやり取りを通じて、AIエージェントの動作をテストする
Agentforce Testing CenterとProvarの主な相違点
特長 | Agentforce Testing Center | PROVAR |
---|---|---|
テスト範囲 | シングルターン検証 | エンドツーエンドのテスト |
オートメーション | AI生成テストケースのみ | 包括的なテスト自動化機能を提供 |
スケーラビリティ | 大規模バッチテスト | 複数のステップから成る現実世界のシナリオ |
発話テスト | 個別のプロンプトに限定 | 完全な会話のやり取りを評価 |
統合 | Agentforce環境のみに注力 | Salesforce UI、API、データベース等をサポート |
AIエージェントのエンドツーエンドのプロセスをどのように決定するかは統合方法によって異なります。エージェントが Salesforce環境内のみでやり取りする場合は完全なエンドツーエンドではありませんが、外部データベース (ERP、Oracle など) やアプリケーションに接続する場合は、エンドツーエンドの統合環境を検証しなければなりません。これらのプロセスは、エージェントワークフローを構築するときにマッピングする必要があります。
Provarは、Seleniumなどのオープンソースフレームワークと同様に、一般的なWebアプリケーションとWebページのテストをサポートします。また、Agentforce Testing CenterはAIベースの検証を実行し、許容可能な回答の範囲を許可しますが、Provarを使用すると、ユーザーは厳密な検証または柔軟な検証を定義することができます。
テスト範囲に関して、ProvarとAgentforce Testing Centerの違いは前述のとおり、Testing Centerでは現状では単一ターンの発話検証に重点を置いているのに比べ、Provarは完全な会話フローと複雑なエンドツーエンド環境のシナリオを処理することができる点にあります。
AIエージェントは速度と信頼性の点から、APIとSOQL経由でのテストが推奨されますが、UIテストは、ペルソナベースのシナリオやレイアウト検証などでは必須となります。また、複数の入力が必要なエージェントの応答に対して、Provarは実際のユーザー操作をシミュレートするために、単一入力テストと順次入力テストの両方をサポートしています。
Provarは単一のテストケースで複数の接続をサポートしており、さらに複数のSalesforce、UI、API、データベース接続を統合してテスト実行できます。Provarは動的エージェントの応答を検証するに際して、偽陰性 (本来陽性であるべきデータポイントを見逃し、陰性と判断すること) を防ぐために、ページの読み込みとバックグラウンドプロセスに動的な待機メカニズムを提供します。
なお、Provarはテストビルダーの機能によって、テキスト値、HTML 属性、および可視性プロパティを動的に抽出することにより、チャットテキストのプロパティを識別しています。
また、Agentforce Testing CenterとProvarはどちらも並列テスト実行が可能です。
まとめ
ProvarはSalesforceプラットフォームにおけるエンドツーエンド環境の自動テストはもちろん、今すぐAgentforceのテストにご利用いただけます。現行の Provar製品の高度な機能を使用して、堅牢かつ高信頼のテストを実行できます。
AIエージェントの精度、信頼性、コンプライアンスを確保するには、包括的なテストの実行が不可欠です。Agentforce Testing CenterはスケーラブルなAI生成テストケースを提供しますが、主に単一ターンの検証に重点を置いています。Provarの機能はさらに拡張を施されており、Salesforceエコシステムの広範かつ複雑なエンドツーエンドに渡るビジネスワークフローの自動化、実際のシナリオのテスト、マルチチャネル検証などが可能になる大きなメリットがあります。
Agentforceの効果を最大限に高めるために、Salesforceに関わる開発チームはTesting Centerを高度に補完するProvarを効果的に活用することで、革新的なAIソリューションが企業のDXや成長目標と一致し、ユーザーエクスペリエンスを向上させ、さらにセキュリティとコンプライアンスの標準を満たすことができるのです。