Folder

文件夹加载器提供从目录中加载和处理多个文件的功能。该模块支持多种文件格式,并能递归处理子目录。
此模块提供了一个功能强大的文件夹加载器,它可以:
同时加载多种文件类型
递归处理目录
处理各种文档格式
支持针对PDF的特定处理
处理结构化数据文件
自定义元数据提取
支持文本分割
输入
必填参数
文件夹路径:指向包含文件的目录的路径
递归:是否处理子目录
可选参数
文本分割器:用于处理提取内容的文本分割器
PDF使用方法:请在以下选项中选择:
每页一个文件 每个文件一个文档
JSONL指针提取:JSONL文件的指针名称
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
支持的文件类型
文档
PDF(.pdf)
Word文档(.doc、.docx)
Excel(.xls、.xlsx、.xlsm、.xlsb)
PowerPoint(.ppt,.pptx)
文本文件(.txt)
Markdown(.md,.markdown)
HTML(.html)
XML(.xml)
数据文件
JSON(.json)
JSONL(.jsonl)
CSV(.csv)
编程语言
Python(.py,.python)
JavaScript(.js)
TypeScript(.ts)
Java(.java)
C/C++(.c、.cpp、.h)
C#(.cs)
Ruby(.rb,.ruby)
Go(.go)
PHP(.php)
Swift(.swift)
Rust(.rs)
Scala(.scala,.sc)
Kotlin(.kt)
Solidity(.sol)
Web技术
CSS(.css)
SCSS(.scss)
LESS(.less)
SQL(.sql)
协议缓冲区(.proto)
功能
多格式支持
递归目录处理
PDF处理选项
结构化数据处理
文本分割支持
元数据定制
错误处理
注意事项
自动检测文件类型
处理大型目录
保留文件元数据
内存高效处理
支持自定义文件扩展名
无效文件的错误处理
输出格式灵活
Last updated