Epub File
EPUB(电子出版物)是由国际数字出版论坛(IDPF)制定的一项免费且开放的电子书标准。此模块提供在工作流程中加载和处理EPUB文件的功能。
此模块提供了一个功能强大的EPUB文档加载器,该加载器能够:
加载单个或多个EPUB文件
支持base64编码的文件和来自存储的文件
按章节或按文件提取内容
使用文本分割工具处理内容
处理元数据提取
管理临时文件处理
输入
必选参数
EPUB文件:需处理的EPUB文件(需带有.epub扩展名)
使用方法:请在以下选项中选择:
每章一个文档:按章节拆分内容
每个文件一个文档:将整个文件作为一个文档处理
可选参数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
忽略元数据键:以逗号分隔的需忽略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
多文件处理
分章节拆分
文件级处理
存储集成
元数据定制
文本分割支持
临时文件处理
错误处理
处理模式
按章节模式
为每一章分别创建单独的文档
保持章节结构
保留章节元数据
更适合进行详细分析
按文件模式
将整个文件作为一个文档处理
保持整体结构
更简单的文档组织
更适合进行概览分析
注意事项
支持本地文件和基于存储的文件
处理base64编码的内容
自动清理临时文件
保留文档结构
支持添加自定义元数据
无效文件的错误处理
内存高效处理
Last updated