Docx File

Microsoft Word文档(DOCX)是一种广泛用于创建和编辑文本文档的文档格式。本模块提供在工作流程中加载和处理DOCX文件的功能。
此模块提供了一个功能全面的DOCX文档加载器,该加载器能够:
加载单个或多个DOCX文件
支持base64编码的文件和来自存储的文件
提取带有元数据的文本内容
与文本分割器集成以进行内容处理
处理自定义元数据管理
输入
DOCX文件:需处理的DOCX文件(需扩展名为.docx)
文本分割器(可选):用于处理提取内容的文本分割器
附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象
省略元数据键(可选):以逗号分隔的元数据键列表,用于从默认元数据中省略
输出
Document:包含元数据和页面内容的文档对象数组
文本:所有文档的pageContent拼接而成的字符串
功能
支持多文件处理
灵活的文本分割选项
可定制的元数据处理
存储集成支持
Base64和blob处理能力
Last updated