Docx File

Docx文件节点

Microsoft Word文档(DOCX)是一种广泛用于创建和编辑文本文档的文档格式。本模块提供在工作流程中加载和处理DOCX文件的功能。

此模块提供了一个功能全面的DOCX文档加载器,该加载器能够:

  • 加载单个或多个DOCX文件

  • 支持base64编码的文件和来自存储的文件

  • 提取带有元数据的文本内容

  • 与文本分割器集成以进行内容处理

  • 处理自定义元数据管理

输入

  • DOCX文件:需处理的DOCX文件(需扩展名为.docx)

  • 文本分割器(可选):用于处理提取内容的文本分割器

  • 附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象

  • 省略元数据键(可选):以逗号分隔的元数据键列表,用于从默认元数据中省略

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:所有文档的pageContent拼接而成的字符串

功能

  • 支持多文件处理

  • 灵活的文本分割选项

  • 可定制的元数据处理

  • 存储集成支持

  • Base64和blob处理能力

Last updated