Microsoft Word

Microsoft Word是一款用于创建和编辑文本文档的文字处理软件。此模块提供了使用officeparser加载和处理Word文档的功能。

此模块提供了一个功能强大的Word文档加载器,该加载器能够:

  • 加载Word文档

  • 提取文本内容

  • 将内容分成若干部分

  • 处理页码编号

  • 按部分处理元数据

  • 支持多种节格式

  • 处理各种类型的段落分隔符

输入

必填参数

  • Word文件:要处理的Word文件(.doc、.docx)

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 文本提取

  • 分节

  • 元数据处理

  • 错误处理

  • 内存高效处理

  • 启发式区域检测

  • 内容过滤

节段检测方法

模式识别

加载器尝试使用常见模式来识别各个部分: “第X页”标记 “第X节”标记 “第X章”标记

  • 编号部分(例如,“1. ”,“2. ”)

  • 全部大写标题

  • 长下划线分隔符 长划线分隔符

回退机制

如果模式识别失败:

  1. 使用多个换行符进行分割

  2. 用双换行符分隔

  3. 将内容视为单个部分

文档结构

每份文件包含:

  • pageContent:从该部分提取的文本内容

  • 元数据

    • documentType: "word"

    • pageNumber: 连续节号

    • 额外的自定义元数据

内容处理

  • 空段落已被过滤掉

  • 移除了前导/尾随空格

  • 最小内容长度验证

  • 合理的节段计数验证

元数据属性

默认属性包括:

  • documentType:文档类型(字符串)

  • pageCount:页数/节数(数字)

  • 输入中的自定义元数据

注释

  • 使用officeparser进行提取

  • 处理各种文档格式

  • 智能区域检测

  • 内容验证

  • 内存高效处理

  • 无效文件的错误处理

  • 输出格式灵活

  • 强大的回退机制

Last updated