Epub File

EPUB(电子出版物)是由国际数字出版论坛(IDPF)制定的一项免费且开放的电子书标准。此模块提供在工作流程中加载和处理EPUB文件的功能。

此模块提供了一个功能强大的EPUB文档加载器,该加载器能够:

  • 加载单个或多个EPUB文件

  • 支持base64编码的文件和来自存储的文件

  • 按章节或按文件提取内容

  • 使用文本分割工具处理内容

  • 处理元数据提取

  • 管理临时文件处理

输入

必选参数

  • EPUB文件:需处理的EPUB文件(需带有.epub扩展名)

  • 使用方法:请在以下选项中选择:

    • 每章一个文档:按章节拆分内容

    • 每个文件一个文档:将整个文件作为一个文档处理

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 忽略元数据键:以逗号分隔的需忽略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 多文件处理

  • 分章节拆分

  • 文件级处理

  • 存储集成

  • 元数据定制

  • 文本分割支持

  • 临时文件处理

  • 错误处理

处理模式

按章节模式

  • 为每一章分别创建单独的文档

  • 保持章节结构

  • 保留章节元数据

  • 更适合进行详细分析

按文件模式

  • 将整个文件作为一个文档处理

  • 保持整体结构

  • 更简单的文档组织

  • 更适合进行概览分析

注意事项

  • 支持本地文件和基于存储的文件

  • 处理base64编码的内容

  • 自动清理临时文件

  • 保留文档结构

  • 支持添加自定义元数据

  • 无效文件的错误处理

  • 内存高效处理

Last updated