Ctrlk

Evaluations

提示信息仅云计划和企业计划提供评估服务

评估有助于您监控和理解Chatflow/Agentflow应用程序的性能。从宏观层面来看，评估是一个过程，它从Chatflow/Agentflow中获取一组输入和相应的输出，并生成分数。这些分数可以通过将输出与参考结果进行比较得出，例如通过字符串匹配、数值比较，甚至利用大型语言模型（LLM）作为评判工具。这些评估是使用数据集和评估器来完成的。

数据集

数据集是用于运行Chatflow/Agentflow的输入，以及用于比较的相应输出。用户可以手动添加输入和预期输出，或者上传一个包含两列的CSV文件：输入和输出。

输入

输出

英国的首都是什么

英国的首都是伦敦

一年有多少天

一年有365天

评估者

评估器类似于单元测试。在评估过程中，数据集的输入会在选定的流上运行，并使用选定的评估器对输出进行评估。评估器有三种类型：

基于文本：基于字符串的检查：
- 包含任意
- 包含全部
- 不包含任何
- 不包含全部
- 以...开头
- 不以...开头

**基于数值的：**数值类型检查：
- 总代币数
- 提示标记
- 完成令牌
- API延迟
- LLM 延迟
- 聊天流程延迟
- Agentflow延迟（即将推出）
- 输出字符长度

基于LLM（大型语言模型）：使用另一个LLM对输出进行评分
- 幻觉
- 正确性

评估

既然我们已经准备好了数据集和评估器，就可以开始进行评估了。

1.) 选择要评估的数据集和聊天流程。您可以选择多个数据集和聊天流程。以下例所示，来自数据集1的每个输入都将针对2个聊天流程运行。由于数据集1有2个输入，因此将产生并评估总共4个输出。

2.) 选择评估器。在此阶段，仅可选择基于字符串和基于数值的评估器。

3.)（可选）选择基于LLM的评估器。开始评估：

4.) 等待评估完成：

5.) 评估完成后，点击右侧的图表图标以查看详情：

以上三张图表展示了评估的总结：

通过率/失败率
使用的平均提示和补全标记
请求的平均延迟

图表下方的表格展示了每次执行的详细信息。

重新运行评估

当用于评估的流程被更新/修改时，将显示一条警告消息：

您可以使用右上角的“重新运行评估”按钮重新运行相同的评估。您将能够看到不同的版本：

您还可以查看并比较不同版本的结果：

视频教程

PreviousWorkspaces NextConfiguration

Last updated 6 days ago