Json Lines File

JSON Lines(JSONL)是一种文本格式,其中每一行都是一个有效的JSON值。此模块提供加载和处理JSONL文件的功能,支持基于指针的内容提取和动态元数据处理。
此模块提供了一个功能强大的JSONL文档加载器,该加载器能够:
加载单个或多个JSONL文件
使用JSON指针提取特定值
处理动态元数据提取
使用文本分割工具处理内容
支持base64编码的文件
处理文件存储集成
自定义元数据提取
输入
必填参数
JSONL文件:要处理的JSONL文件(扩展名为.jsonl)
指针提取:用于提取内容的JSON指针(例如,对于
{"key": "value"},使用“key”)
可选参数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
JSON指针提取
动态元数据处理
文本分割支持
Base64文件支持
文件存储集成
错误处理
内存高效处理
JSON指针提取
基本示例
对于JSONL内容:
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{"key": "value1", "source": "file1.txt"}
{"key": "value2", "source": "file2.txt"}使用指针“key”,提取出“value1”和“value2”
动态元数据
您可以使用JSON指针将值提取为元数据:
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"source": "/source",,
“自定义”:“/metadata/field”
}文档结构
每份文件包含:
pageContent:使用指针提取的内容
元数据:
来源:原始文件路径
line: 文件中的行号
pointer: 已使用的JSON指针
附加动态元数据
文件处理
本地文件
直接文件加载
Base64编码的内容
支持多个文件
存储集成
文件存储系统支持
基于组织的存储
基于Chatflow的存储
注释
每行JSONL对应一个文档
跳过无效的JSON行
内存高效处理
无效指针的错误处理
支持嵌套的JSON结构
动态元数据提取
输出格式灵活
Last updated