Plain Text

Notes是最基本的文本数据形式,不包含任何格式或其他嵌入信息。本模块提供直接加载和处理纯文本内容的功能。
此模块提供了一个简洁的文本文档加载器,该加载器可以:
直接加载文本内容
使用拆分器处理文本
添加自定义元数据
处理转义字符
支持文档拆分
自定义元数据提取
管理文本编码
输入
必选参数
Text: 要处理的纯文本内容
可选参数
文本分割器:用于处理内容的文本分割工具
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
直接文本输入
文本分割支持
元数据处理
错误处理
内存高效处理
字符编码处理
输出格式灵活
文本处理
直接模式
单个文档创建
保留原文
基本元数据处理
内存效率高
分割模式
创建多个文档
自定义拆分规则
单个数据块元数据
精细的内容访问控制
文档结构
每份文件包含:
pageContent:原始或分割后的文本内容
元数据:
输入中的自定义元数据
分割特定元数据(使用分割器时)
附加元数据属性
内容处理
文本输入
直接字符串输入
多行支持
Unicode支持
转义字符处理
处理选项
文本分割
元数据添加
字符规范化
空白处理
注意事项
简单高效
无需文件处理
内存高效处理
无效输入的错误处理
支持大文本
输出格式灵活
元数据定制
字符编码支持
Last updated