Evaluations
提示信息 仅云计划和企业计划提供评估服务
评估有助于您监控和理解Chatflow/Agentflow应用程序的性能。从宏观层面来看,评估是一个过程,它从Chatflow/Agentflow中获取一组输入和相应的输出,并生成分数。这些分数可以通过将输出与参考结果进行比较得出,例如通过字符串匹配、数值比较,甚至利用大型语言模型(LLM)作为评判工具。这些评估是使用数据集和评估器来完成的。
数据集
数据集是用于运行Chatflow/Agentflow的输入,以及用于比较的相应输出。用户可以手动添加输入和预期输出,或者上传一个包含两列的CSV文件:输入和输出。

英国的首都是什么
英国的首都是伦敦
一年有多少天
一年有365天
评估者
评估器类似于单元测试。在评估过程中,数据集的输入会在选定的流上运行,并使用选定的评估器对输出进行评估。评估器有三种类型:
基于文本:基于字符串的检查:
包含任意
包含全部
不包含任何
不包含全部
以...开头
不以...开头

**基于数值的:**数值类型检查:
总代币数
提示标记
完成令牌
API延迟
LLM 延迟
聊天流程延迟
Agentflow延迟(即将推出)
输出字符长度

基于LLM(大型语言模型):使用另一个LLM对输出进行评分
幻觉
正确性

评估
既然我们已经准备好了数据集和评估器,就可以开始进行评估了。
1.) 选择要评估的数据集和聊天流程。您可以选择多个数据集和聊天流程。以下例所示,来自数据集1的每个输入都将针对2个聊天流程运行。由于数据集1有2个输入,因此将产生并评估总共4个输出。

2.) 选择评估器。在此阶段,仅可选择基于字符串和基于数值的评估器。

3.)(可选)选择基于LLM的评估器。开始评估:

4.) 等待评估完成:

5.) 评估完成后,点击右侧的图表图标以查看详情:

以上三张图表展示了评估的总结:
通过率/失败率
使用的平均提示和补全标记
请求的平均延迟
图表下方的表格展示了每次执行的详细信息。


重新运行评估
当用于评估的流程被更新/修改时,将显示一条警告消息:

您可以使用右上角的“重新运行评估”按钮重新运行相同的评估。您将能够看到不同的版本:

您还可以查看并比较不同版本的结果:

视频教程
Last updated