Folder

包含文件的文件夹节点

文件夹加载器提供从目录中加载和处理多个文件的功能。该模块支持多种文件格式,并能递归处理子目录。

此模块提供了一个功能强大的文件夹加载器,它可以:

  • 同时加载多种文件类型

  • 递归处理目录

  • 处理各种文档格式

  • 支持针对PDF的特定处理

  • 处理结构化数据文件

  • 自定义元数据提取

  • 支持文本分割

输入

必填参数

  • 文件夹路径:指向包含文件的目录的路径

  • 递归:是否处理子目录

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • PDF使用方法:请在以下选项中选择:

    • 每页一个文件 每个文件一个文档

  • JSONL指针提取:JSONL文件的指针名称

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

支持的文件类型

文档

  • PDF(.pdf)

  • Word文档(.doc、.docx)

  • Excel(.xls、.xlsx、.xlsm、.xlsb)

  • PowerPoint(.ppt,.pptx)

  • 文本文件(.txt)

  • Markdown(.md,.markdown)

  • HTML(.html)

  • XML(.xml)

数据文件

  • JSON(.json)

  • JSONL(.jsonl)

  • CSV(.csv)

编程语言

  • Python(.py,.python)

  • JavaScript(.js)

  • TypeScript(.ts)

  • Java(.java)

  • C/C++(.c、.cpp、.h)

  • C#(.cs)

  • Ruby(.rb,.ruby)

  • Go(.go)

  • PHP(.php)

  • Swift(.swift)

  • Rust(.rs)

  • Scala(.scala,.sc)

  • Kotlin(.kt)

  • Solidity(.sol)

Web技术

  • CSS(.css)

  • SCSS(.scss)

  • LESS(.less)

  • SQL(.sql)

  • 协议缓冲区(.proto)

功能

  • 多格式支持

  • 递归目录处理

  • PDF处理选项

  • 结构化数据处理

  • 文本分割支持

  • 元数据定制

  • 错误处理

注意事项

  • 自动检测文件类型

  • 处理大型目录

  • 保留文件元数据

  • 内存高效处理

  • 支持自定义文件扩展名

  • 无效文件的错误处理

  • 输出格式灵活

Last updated