如何使用智能体测试智能体

传统测试依赖于固定的输入和精确的输出。但智能体使用语言进行交流，因此不存在单一的“正确”响应。

这就是为什么我们通过模拟用户和评判者，使用其他智能体来测试智能体。你看，用智能体制定的规则，来考核智能体本身。

智能体（Agent）在人工智能领域中指能够感知环境、做出决策并执行动作的自主系统。在对话系统中，智能体通常指能够理解和生成自然语言的模型或程序。

今天，让我们通过构建一个使用场景来测试智能体与其他智能体的流水线，来理解智能体测试。

我们的开源技术栈：

CrewAI 用于智能体编排。
LangWatch Scenario 用于构建评估流水线。
PyTest 作为测试运行器。

以下是流程示意图：

定义三个智能体：
- 你要测试的智能体。
- 一个模拟真实用户的用户模拟智能体。
- 用于评估的评判智能体。
让你的智能体和用户模拟智能体彼此交互。
基于指定的标准，使用评判智能体评估这次交换。

接下来，让我们实现它！

定义规划者团队

为了这个演示，我们将使用CrewAI来构建一个旅行规划智能体。它将接收用户查询，并回应旅行建议、简要行程和估算预算。

CrewAI 是一个开源的框架，专门用于设计和编排多个AI智能体协作完成任务，类似一个团队。在这个上下文中，它帮助构建和管理智能体之间的交互。

配置Crew进行测试

在场景库中，您的Agent类应该：

注：在智能体系统中，“Crew”通常指一个由多个Agent组成的团队，协同完成任务；“Agent class”指在编程中定义Agent行为的类；“Scenario library”是用于测试智能体的场景集合。

继承自 AgentAdapter 类。
定义一个 call() 方法，该方法接收输入并返回输出。

定义测试

最后，在我们的测试中，我们使用 scenario.run 方法模拟旅行代理与用户模拟代理之间的对话。

交换之后，Judge Agent 根据指定标准进行评估。LangWatch Scenario 协调一切！

AgentAdapter 类是一个基类，用于标准化智能体的行为接口，便于在复杂系统中集成和复用。call() 方法是智能体处理任务的核心函数，类似于编程中的主函数，负责接收外部输入并生成相应输出。scenario.run 方法用于执行预定义的测试场景，模拟智能体之间的交互过程，以验证其行为。Judge Agent 是一个评估智能体，根据预设的评判标准（如准确性、效率）来打分或提供反馈。LangWatch Scenario 是一个协调框架，用于管理和自动化多个智能体的测试流程，确保测试有序进行。