Microsoft Powerpoint

Microsoft PowerPoint是一款用于创建和展示幻灯片演示文稿的程序。本模块提供了使用officeparser加载和处理PowerPoint文件的功能。

此模块提供了一个功能强大的PowerPoint文档加载器,该加载器能够:

  • 加载PowerPoint演示文稿

  • 从幻灯片中提取文本

  • 将内容拆分为单独的幻灯片

  • 处理幻灯片编号

  • 处理每张幻灯片的元数据

  • 支持多种幻灯片格式

  • 处理各种幻灯片分隔符

输入

必选参数

  • PowerPoint文件:要处理的PowerPoint文件(.ppt、.pptx)

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 忽略元数据键:以逗号分隔的需忽略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 文本提取

  • 滑道分离

  • 元数据处理

  • 错误处理

  • 内存高效处理

  • 启发式幻灯片检测

  • 内容过滤

幻灯片检测方法

模式识别

加载器尝试使用常见模式来识别幻灯片: “幻灯片X”标记 “第X页”标记

  • “X/Y”页码

  • 下划线分隔符

  • 短横线分隔符

  • 多个换行符

回退机制

如果模式识别失败:

  1. 使用双换行符进行分割

  2. 将内容视为单张幻灯片

文档结构

每份文件包含:

  • pageContent:从幻灯片中提取的文本内容

  • 元数据

    • slideNumber:幻灯片序号

    • documentType: "powerpoint"

    • 额外的自定义元数据

内容处理

  • 空幻灯片被过滤掉

  • 去除前导/尾随空格

  • 最小内容长度验证

  • 合理的幻灯片数量验证

元数据属性

默认属性包括:

  • slideNumber:幻灯片编号(数字)

  • documentType:文档类型(字符串)

  • 从输入中自定义元数据

注释

  • 使用officeparser进行提取

  • 支持多种幻灯片格式

  • 智能幻灯片检测

  • 内容验证

  • 内存高效处理

  • 无效文件的错误处理

  • 输出格式灵活

  • 强大的回退机制

Last updated