Evaluations

提示信息 仅云计划和企业计划提供评估服务

评估有助于您监控和理解Chatflow/Agentflow应用程序的性能。从宏观层面来看,评估是一个过程,它从Chatflow/Agentflow中获取一组输入和相应的输出,并生成分数。这些分数可以通过将输出与参考结果进行比较得出,例如通过字符串匹配、数值比较,甚至利用大型语言模型(LLM)作为评判工具。这些评估是使用数据集和评估器来完成的。

数据集

数据集是用于运行Chatflow/Agentflow的输入,以及用于比较的相应输出。用户可以手动添加输入和预期输出,或者上传一个包含两列的CSV文件:输入和输出。

输入
输出

英国的首都是什么

英国的首都是伦敦

一年有多少天

一年有365天

评估者

评估器类似于单元测试。在评估过程中,数据集的输入会在选定的流上运行,并使用选定的评估器对输出进行评估。评估器有三种类型:

  • 基于文本:基于字符串的检查:

    • 包含任意

    • 包含全部

    • 不包含任何

    • 不包含全部

    • 以...开头

    • 不以...开头

  • **基于数值的:**数值类型检查:

    • 总代币数

    • 提示标记

    • 完成令牌

    • API延迟

    • LLM 延迟

    • 聊天流程延迟

    • Agentflow延迟(即将推出)

    • 输出字符长度

  • 基于LLM(大型语言模型):使用另一个LLM对输出进行评分

    • 幻觉

    • 正确性

评估

既然我们已经准备好了数据集和评估器,就可以开始进行评估了。

1.) 选择要评估的数据集和聊天流程。您可以选择多个数据集和聊天流程。以下例所示,来自数据集1的每个输入都将针对2个聊天流程运行。由于数据集1有2个输入,因此将产生并评估总共4个输出。

2.) 选择评估器。在此阶段,仅可选择基于字符串和基于数值的评估器。

3.)(可选)选择基于LLM的评估器。开始评估:

4.) 等待评估完成:

5.) 评估完成后,点击右侧的图表图标以查看详情:

以上三张图表展示了评估的总结:

  • 通过率/失败率

  • 使用的平均提示和补全标记

  • 请求的平均延迟

图表下方的表格展示了每次执行的详细信息。

重新运行评估

当用于评估的流程被更新/修改时,将显示一条警告消息:

您可以使用右上角的“重新运行评估”按钮重新运行相同的评估。您将能够看到不同的版本:

您还可以查看并比较不同版本的结果:

视频教程

Last updated