Microsoft Powerpoint

Microsoft PowerPoint是一款用于创建和展示幻灯片演示文稿的程序。本模块提供了使用officeparser加载和处理PowerPoint文件的功能。
此模块提供了一个功能强大的PowerPoint文档加载器,该加载器能够:
加载PowerPoint演示文稿
从幻灯片中提取文本
将内容拆分为单独的幻灯片
处理幻灯片编号
处理每张幻灯片的元数据
支持多种幻灯片格式
处理各种幻灯片分隔符
输入
必选参数
PowerPoint文件:要处理的PowerPoint文件(.ppt、.pptx)
可选参数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
忽略元数据键:以逗号分隔的需忽略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
文本提取
滑道分离
元数据处理
错误处理
内存高效处理
启发式幻灯片检测
内容过滤
幻灯片检测方法
模式识别
加载器尝试使用常见模式来识别幻灯片: “幻灯片X”标记 “第X页”标记
“X/Y”页码
下划线分隔符
短横线分隔符
多个换行符
回退机制
如果模式识别失败:
使用双换行符进行分割
将内容视为单张幻灯片
文档结构
每份文件包含:
pageContent:从幻灯片中提取的文本内容
元数据:
slideNumber:幻灯片序号
documentType: "powerpoint"
额外的自定义元数据
内容处理
空幻灯片被过滤掉
去除前导/尾随空格
最小内容长度验证
合理的幻灯片数量验证
元数据属性
默认属性包括:
slideNumber:幻灯片编号(数字)
documentType:文档类型(字符串)
从输入中自定义元数据
注释
使用officeparser进行提取
支持多种幻灯片格式
智能幻灯片检测
内容验证
内存高效处理
无效文件的错误处理
输出格式灵活
强大的回退机制
Last updated