Text File

文本文件加载器可让您加载和处理各种基于文本的文件格式的内容。它支持多种文件类型,并提供灵活的选项以进行文本分割和元数据处理。
功能
支持多种基于文本的文件格式
多文件加载能力
文本分割支持
可定制的元数据处理
存储集成支持
Base64文件处理
多种输出格式
支持的文件类型
该加载器支持多种基于文本的文件格式:
文本文件(.txt)
网络文件(.html、.aspx、.asp、.css)
编程语言:
C/C++(.cpp、.c、.h)
C#(.cs)
Go(.go)
Java(.java)
JavaScript/TypeScript(.js,.ts)
PHP(.php)
Python(.py,.python)
Ruby(.rb,.ruby)
Rust(.rs)
Scala(.sc,.scala)
Solidity(.sol)
Swift(.swift)
Visual Basic(.vb)
标记/样式:
CSS/LESS/SCSS(.css、.less、.scss)
Markdown(.md,.markdown)
XML(.xml)
LaTeX(.tex,.ltx)
其他:
协议缓冲区(.proto)
SQL(.sql)
RST(.rst)
输入
必选参数
文本文件:一个或多个待处理的文本文件
接受本地上传或存储的文件
支持选择多个文件
可选参数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含要添加到文档中的附加元数据的JSON对象
省略元数据键:以逗号分隔的需排除的元数据键列表
格式:
key1, key2, key3.nestedKey1使用*来移除所有默认元数据
输出
Document: 文档对象数组,包含:
元数据:文件元数据和自定义字段
pageContent:提取的文本内容
文本:所有提取内容的拼接字符串
文档结构
每份文件包含:
pageContent:文本文件中的主要内容
元数据:
默认文件元数据
额外的自定义元数据(如已指定)
已过滤元数据(基于省略的键)
使用示例
单文件处理
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"txt文件":"example.txt",
"metadata": {
"source": "本地",,
"category": "文档"
}
}多文件处理
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"txtFile": ["doc1.txt", "doc2.md", "code.py"],,
"metadata": {
"batch": "docs-2024",,
"处理器":"文本加载器"
},
"omitMetadataKeys": "source, timestamp"
}存储集成
加载器支持两种文件源模式:
直接上传:通过界面直接上传的文件
存储集成:通过存储系统访问的文件
格式:
FILE-STORAGE::filename.txt支持组织和聊天流程特定的存储
注意事项
既可处理单个文件,也可处理多个文件
支持base64编码的文件内容
自动处理不同的文件编码
大文件的内存高效处理
在需要时保留文件元数据
支持对大型文档进行文本分割
处理输出文本中的转义字符
与特定组织的存储系统集成
信息提示 本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。请查阅我们的贡献指南以开始您的贡献。
Last updated