File

文件加载器是一款功能强大的文档加载工具,支持多种文件格式,包括TXT、JSON、CSV、DOCX、PDF、Excel、PowerPoint等。该模块为加载和处理各种文件类型提供了统一的接口。

此模块提供了一个功能强大的文件加载器,该加载器能够:

  • 加载多种文件格式

  • 支持base64编码的文件和来自存储的文件

  • 处理PDF特定的处理选项

  • 使用指针提取处理JSON和JSONL

  • 支持文本分割

  • 自定义元数据提取

  • 处理文件存储集成

输入

必填参数

  • 文件:要处理的文件(支持多种格式)

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • PDF使用方法:请在以下选项中选择:

    • 每页一个文档

    • 每个文件一个文档

  • 使用旧版构建:针对PDF兼容性问题,使用旧版构建

  • JSONL指针提取:JSONL文件的指针名称

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

支持的文件类型

  • 文本文件(.txt)

  • JSON文件(.json)

  • JSONL文件(.jsonl)

  • CSV文件(.csv)

  • PDF文件(.pdf)

  • Word文档(.docx)

  • Excel文件(.xlsx、.xls)

  • PowerPoint文件(.pptx,.ppt)

  • 还有其他。。。

功能

  • 多格式支持

  • 存储集成

  • PDF处理选项

  • JSON指针提取

  • 文本分割支持

  • 元数据定制

  • 错误处理

  • MIME类型检测

文件处理选项

PDF处理

  • 分页

  • 单文档模式

  • 旧版构建支持

  • OCR兼容性

JSON/JSONL处理

  • 基于指针的提取

  • 结构化数据处理

  • 数组处理

  • 嵌套对象支持

注意事项

  • 自动检测文件类型

  • 可同时处理多个文件

  • 支持文件存储集成

  • 保留文件元数据

  • 高效处理大文件

  • 无效文件的错误处理

  • 内存高效处理

Last updated