Text File

文本文件加载器可让您加载和处理各种基于文本的文件格式的内容。它支持多种文件类型，并提供灵活的选项以进行文本分割和元数据处理。

功能

支持多种基于文本的文件格式
多文件加载能力
文本分割支持
可定制的元数据处理
存储集成支持
Base64文件处理
多种输出格式

支持的文件类型

该加载器支持多种基于文本的文件格式：

文本文件（.txt）
网络文件（.html、.aspx、.asp、.css）
编程语言：
- C/C++（.cpp、.c、.h）
- C#（.cs）
- Go（.go）
- Java（.java）
- JavaScript/TypeScript（.js，.ts）
- PHP（.php）
- Python（.py，.python）
- Ruby（.rb，.ruby）
- Rust（.rs）
- Scala（.sc，.scala）
- Solidity（.sol）
- Swift（.swift）
- Visual Basic（.vb）
标记/样式：
- CSS/LESS/SCSS（.css、.less、.scss）
- Markdown（.md，.markdown）
- XML（.xml）
- LaTeX（.tex，.ltx）
其他：
- 协议缓冲区（.proto）
- SQL（.sql）
- RST（.rst）

输入

必选参数

文本文件：一个或多个待处理的文本文件
- 接受本地上传或存储的文件
- 支持选择多个文件

可选参数

文本分割器：用于处理提取内容的文本分割器
附加元数据：包含要添加到文档中的附加元数据的JSON对象
省略元数据键：以逗号分隔的需排除的元数据键列表
- 格式：key1, key2, key3.nestedKey1 使用*来移除所有默认元数据

输出

Document: 文档对象数组，包含：
- 元数据：文件元数据和自定义字段
- pageContent：提取的文本内容
文本：所有提取内容的拼接字符串

文档结构

每份文件包含：

pageContent：文本文件中的主要内容
元数据：
- 默认文件元数据
- 额外的自定义元数据（如已指定）
- 已过滤元数据（基于省略的键）

使用示例

单文件处理


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  "txt文件"："example.txt"，
  "metadata": {
    "source": "本地",，
    "category": "文档"
  }
}

多文件处理


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  "txtFile": ["doc1.txt", "doc2.md", "code.py"],，
  "metadata": {
    "batch": "docs-2024",，
    "处理器"："文本加载器"
  },
  "omitMetadataKeys": "source, timestamp"
}

存储集成

加载器支持两种文件源模式：

直接上传：通过界面直接上传的文件
存储集成：通过存储系统访问的文件
- 格式：FILE-STORAGE::filename.txt
- 支持组织和聊天流程特定的存储

注意事项

既可处理单个文件，也可处理多个文件
支持base64编码的文件内容
自动处理不同的文件编码
大文件的内存高效处理
在需要时保留文件元数据
支持对大型文档进行文本分割
处理输出文本中的转义字符
与特定组织的存储系统集成

信息提示本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。请查阅我们的贡献指南以开始您的贡献。

PreviousSpider - web search & crawler NextUnstructured File Loader

Last updated 6 days ago

Good night

功能

支持的文件类型

输入

必选参数

可选参数

输出

文档结构

使用示例

单文件处理

多文件处理

存储集成

注意事项