Plain Text

纯文本节点

Notes是最基本的文本数据形式,不包含任何格式或其他嵌入信息。本模块提供直接加载和处理纯文本内容的功能。

此模块提供了一个简洁的文本文档加载器,该加载器可以:

  • 直接加载文本内容

  • 使用拆分器处理文本

  • 添加自定义元数据

  • 处理转义字符

  • 支持文档拆分

  • 自定义元数据提取

  • 管理文本编码

输入

必选参数

  • Text: 要处理的纯文本内容

可选参数

  • 文本分割器:用于处理内容的文本分割工具

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 直接文本输入

  • 文本分割支持

  • 元数据处理

  • 错误处理

  • 内存高效处理

  • 字符编码处理

  • 输出格式灵活

文本处理

直接模式

  • 单个文档创建

  • 保留原文

  • 基本元数据处理

  • 内存效率高

分割模式

  • 创建多个文档

  • 自定义拆分规则

  • 单个数据块元数据

  • 精细的内容访问控制

文档结构

每份文件包含:

  • pageContent:原始或分割后的文本内容

  • 元数据

    • 输入中的自定义元数据

    • 分割特定元数据(使用分割器时)

    • 附加元数据属性

内容处理

文本输入

  • 直接字符串输入

  • 多行支持

  • Unicode支持

  • 转义字符处理

处理选项

  • 文本分割

  • 元数据添加

  • 字符规范化

  • 空白处理

注意事项

  • 简单高效

  • 无需文件处理

  • 内存高效处理

  • 无效输入的错误处理

  • 支持大文本

  • 输出格式灵活

  • 元数据定制

  • 字符编码支持

Last updated