PDF Files

PDF(便携式文档格式)是由Adobe开发的一种文件格式,用于在各种软件平台上一致地呈现文档。此模块提供了使用pdf.js加载和处理PDF文件的功能。

此模块提供了一个功能强大的PDF文档加载器,该加载器能够:

  • 加载单个或多个PDF文件

  • 按页面或文件拆分文档

  • 支持base64编码的文件

  • 处理文件存储集成

  • 使用文本分割工具处理内容

  • 支持旧版PDF格式

  • 自定义元数据提取

输入

必填参数

  • PDF文件:要处理的PDF文件(扩展名为.pdf)

  • 使用方法:请在以下选项中选择:

    • 每页一个文件 每个文件一个文档

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 使用旧版构建:是否使用旧版PDF.js构建

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:来自文档的pageContent的拼接字符串

功能

  • 支持多种文件格式

  • 页面级拆分

  • 旧版支持 文本提取

  • 元数据处理

  • 错误处理

  • 内存高效处理

处理模式

每页模式

  • 每页都成为一个文档

  • 保留页码

  • 单个页面元数据

  • 精细内容访问

按文件模式

  • 整个PDF作为一个文件

  • 组合内容

  • 单一元数据集

  • 内存效率高

文档结构

每份文件包含:

  • pageContent:提取的文本内容

  • 元数据

    • 来源:原始文件路径

    • pdf:PDF特定元数据

    • page: 页码(在逐页模式下)

    • 额外的自定义元数据

文件处理

本地文件

  • 直接文件加载

  • Base64编码的内容

  • 支持多个文件

存储集成

  • 文件存储系统支持

  • 基于组织的存储

  • 基于Chatflow的存储

注意事项

  • 使用pdf.js进行提取

  • 旧版本支持

  • 内存高效处理

  • 无效文件的错误处理

  • 支持大尺寸PDF文件

  • 输出格式灵活

  • 元数据定制

  • 文本编码处理

Last updated