File

文件加载器是一款功能强大的文档加载工具,支持多种文件格式,包括TXT、JSON、CSV、DOCX、PDF、Excel、PowerPoint等。该模块为加载和处理各种文件类型提供了统一的接口。
此模块提供了一个功能强大的文件加载器,该加载器能够:
加载多种文件格式
支持base64编码的文件和来自存储的文件
处理PDF特定的处理选项
使用指针提取处理JSON和JSONL
支持文本分割
自定义元数据提取
处理文件存储集成
输入
必填参数
文件:要处理的文件(支持多种格式)
可选参数
文本分割器:用于处理提取内容的文本分割器
PDF使用方法:请在以下选项中选择:
每页一个文档
每个文件一个文档
使用旧版构建:针对PDF兼容性问题,使用旧版构建
JSONL指针提取:JSONL文件的指针名称
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
支持的文件类型
文本文件(.txt)
JSON文件(.json)
JSONL文件(.jsonl)
CSV文件(.csv)
PDF文件(.pdf)
Word文档(.docx)
Excel文件(.xlsx、.xls)
PowerPoint文件(.pptx,.ppt)
还有其他。。。
功能
多格式支持
存储集成
PDF处理选项
JSON指针提取
文本分割支持
元数据定制
错误处理
MIME类型检测
文件处理选项
PDF处理
分页
单文档模式
旧版构建支持
OCR兼容性
JSON/JSONL处理
基于指针的提取
结构化数据处理
数组处理
嵌套对象支持
注意事项
自动检测文件类型
可同时处理多个文件
支持文件存储集成
保留文件元数据
高效处理大文件
无效文件的错误处理
内存高效处理
Last updated