Json Lines File

Json Lines文件节点

JSON Lines(JSONL)是一种文本格式,其中每一行都是一个有效的JSON值。此模块提供加载和处理JSONL文件的功能,支持基于指针的内容提取和动态元数据处理。

此模块提供了一个功能强大的JSONL文档加载器,该加载器能够:

  • 加载单个或多个JSONL文件

  • 使用JSON指针提取特定值

  • 处理动态元数据提取

  • 使用文本分割工具处理内容

  • 支持base64编码的文件

  • 处理文件存储集成

  • 自定义元数据提取

输入

必填参数

  • JSONL文件:要处理的JSONL文件(扩展名为.jsonl)

  • 指针提取:用于提取内容的JSON指针(例如,对于{"key": "value"},使用“key”)

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • JSON指针提取

  • 动态元数据处理

  • 文本分割支持

  • Base64文件支持

  • 文件存储集成

  • 错误处理

  • 内存高效处理

JSON指针提取

基本示例

对于JSONL内容:


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{"key": "value1", "source": "file1.txt"}
{"key": "value2", "source": "file2.txt"}

使用指针“key”,提取出“value1”和“value2”

动态元数据

您可以使用JSON指针将值提取为元数据:


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
    "source": "/source",,
    “自定义”:“/metadata/field”
}

文档结构

每份文件包含:

  • pageContent:使用指针提取的内容

  • 元数据

    • 来源:原始文件路径

    • line: 文件中的行号

    • pointer: 已使用的JSON指针

    • 附加动态元数据

文件处理

本地文件

  • 直接文件加载

  • Base64编码的内容

  • 支持多个文件

存储集成

  • 文件存储系统支持

  • 基于组织的存储

  • 基于Chatflow的存储

注释

  • 每行JSONL对应一个文档

  • 跳过无效的JSON行

  • 内存高效处理

  • 无效指针的错误处理

  • 支持嵌套的JSON结构

  • 动态元数据提取

  • 输出格式灵活

Last updated