Text File

文本文件节点

文本文件加载器可让您加载和处理各种基于文本的文件格式的内容。它支持多种文件类型,并提供灵活的选项以进行文本分割和元数据处理。

功能

  • 支持多种基于文本的文件格式

  • 多文件加载能力

  • 文本分割支持

  • 可定制的元数据处理

  • 存储集成支持

  • Base64文件处理

  • 多种输出格式

支持的文件类型

该加载器支持多种基于文本的文件格式:

  • 文本文件(.txt)

  • 网络文件(.html、.aspx、.asp、.css)

  • 编程语言:

    • C/C++(.cpp、.c、.h)

    • C#(.cs)

    • Go(.go)

    • Java(.java)

    • JavaScript/TypeScript(.js,.ts)

    • PHP(.php)

    • Python(.py,.python)

    • Ruby(.rb,.ruby)

    • Rust(.rs)

    • Scala(.sc,.scala)

    • Solidity(.sol)

    • Swift(.swift)

    • Visual Basic(.vb)

  • 标记/样式:

    • CSS/LESS/SCSS(.css、.less、.scss)

    • Markdown(.md,.markdown)

    • XML(.xml)

    • LaTeX(.tex,.ltx)

  • 其他:

    • 协议缓冲区(.proto)

    • SQL(.sql)

    • RST(.rst)

输入

必选参数

  • 文本文件:一个或多个待处理的文本文件

    • 接受本地上传或存储的文件

    • 支持选择多个文件

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含要添加到文档中的附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需排除的元数据键列表

    • 格式:key1, key2, key3.nestedKey1 使用*来移除所有默认元数据

输出

  • Document: 文档对象数组,包含:

    • 元数据:文件元数据和自定义字段

    • pageContent:提取的文本内容

  • 文本:所有提取内容的拼接字符串

文档结构

每份文件包含:

  • pageContent:文本文件中的主要内容

  • 元数据

    • 默认文件元数据

    • 额外的自定义元数据(如已指定)

    • 已过滤元数据(基于省略的键)

使用示例

单文件处理


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  "txt文件":"example.txt",
  "metadata": {
    "source": "本地",,
    "category": "文档"
  }
}

多文件处理


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  "txtFile": ["doc1.txt", "doc2.md", "code.py"],,
  "metadata": {
    "batch": "docs-2024",,
    "处理器":"文本加载器"
  },
  "omitMetadataKeys": "source, timestamp"
}

存储集成

加载器支持两种文件源模式:

  1. 直接上传:通过界面直接上传的文件

  2. 存储集成:通过存储系统访问的文件

    • 格式:FILE-STORAGE::filename.txt

    • 支持组织和聊天流程特定的存储

注意事项

  • 既可处理单个文件,也可处理多个文件

  • 支持base64编码的文件内容

  • 自动处理不同的文件编码

  • 大文件的内存高效处理

  • 在需要时保留文件元数据

  • 支持对大型文档进行文本分割

  • 处理输出文本中的转义字符

  • 与特定组织的存储系统集成

信息提示 本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。请查阅我们的贡献指南以开始您的贡献。

Last updated