Microsoft Word

Microsoft Word是一款用于创建和编辑文本文档的文字处理软件。此模块提供了使用officeparser加载和处理Word文档的功能。
此模块提供了一个功能强大的Word文档加载器,该加载器能够:
加载Word文档
提取文本内容
将内容分成若干部分
处理页码编号
按部分处理元数据
支持多种节格式
处理各种类型的段落分隔符
输入
必填参数
Word文件:要处理的Word文件(.doc、.docx)
可选参数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
文本提取
分节
元数据处理
错误处理
内存高效处理
启发式区域检测
内容过滤
节段检测方法
模式识别
加载器尝试使用常见模式来识别各个部分: “第X页”标记 “第X节”标记 “第X章”标记
编号部分(例如,“1. ”,“2. ”)
全部大写标题
长下划线分隔符 长划线分隔符
回退机制
如果模式识别失败:
使用多个换行符进行分割
用双换行符分隔
将内容视为单个部分
文档结构
每份文件包含:
pageContent:从该部分提取的文本内容
元数据:
documentType: "word"
pageNumber: 连续节号
额外的自定义元数据
内容处理
空段落已被过滤掉
移除了前导/尾随空格
最小内容长度验证
合理的节段计数验证
元数据属性
默认属性包括:
documentType:文档类型(字符串)
pageCount:页数/节数(数字)
输入中的自定义元数据
注释
使用officeparser进行提取
处理各种文档格式
智能区域检测
内容验证
内存高效处理
无效文件的错误处理
输出格式灵活
强大的回退机制
Last updated