PDF Files
PDF(便携式文档格式)是由Adobe开发的一种文件格式,用于在各种软件平台上一致地呈现文档。此模块提供了使用pdf.js加载和处理PDF文件的功能。
此模块提供了一个功能强大的PDF文档加载器,该加载器能够:
加载单个或多个PDF文件
按页面或文件拆分文档
支持base64编码的文件
处理文件存储集成
使用文本分割工具处理内容
支持旧版PDF格式
自定义元数据提取
输入
必填参数
PDF文件:要处理的PDF文件(扩展名为.pdf)
使用方法:请在以下选项中选择:
每页一个文件 每个文件一个文档
可选参数
文本分割器:用于处理提取内容的文本分割器
使用旧版构建:是否使用旧版PDF.js构建
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:来自文档的pageContent的拼接字符串
功能
支持多种文件格式
页面级拆分
旧版支持 文本提取
元数据处理
错误处理
内存高效处理
处理模式
每页模式
每页都成为一个文档
保留页码
单个页面元数据
精细内容访问
按文件模式
整个PDF作为一个文件
组合内容
单一元数据集
内存效率高
文档结构
每份文件包含:
pageContent:提取的文本内容
元数据:
来源:原始文件路径
pdf:PDF特定元数据
page: 页码(在逐页模式下)
额外的自定义元数据
文件处理
本地文件
直接文件加载
Base64编码的内容
支持多个文件
存储集成
文件存储系统支持
基于组织的存储
基于Chatflow的存储
注意事项
使用pdf.js进行提取
旧版本支持
内存高效处理
无效文件的错误处理
支持大尺寸PDF文件
输出格式灵活
元数据定制
文本编码处理
Last updated