Github

GitHub是一个用于版本控制和协作的平台。此模块提供从GitHub存储库加载和处理内容的功能,支持公共和私有存储库。
此模块提供了一个功能强大的GitHub文档加载器,该加载器能够:
从GitHub仓库加载内容
支持私有仓库访问
递归处理存储库
处理自定义GitHub实例
控制并发和重试
自定义文件过滤
使用文本分割工具处理内容
输入
必填参数
仓库链接:GitHub 仓库的 URL(例如,https://github.com/FlowiseAI/Flowise)
Branch:从哪个分支加载内容(默认:main)
可选参数
连接凭据:GitHub API 凭据(私有仓库必需)
递归:是否处理子目录
最大并发数:并发加载文件的最大数量
Github Base URL:为企业实例自定义GitHub基础URL
Github实例API:企业实例的自定义GitHub API URL
忽略路径:一个包含要忽略的路径的通配符模式的数组
最大重试次数:重试尝试的最大次数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的形式列出要省略的元数据键
输出
Document:包含元数据和页面内容的文档对象数组
文本:来自文档pageContent的拼接字符串
功能
支持公共/私有仓库
企业实例支持
递归目录处理
并发控制
重试机制
路径过滤
文本分割支持
元数据定制
身份验证方法
公共仓库
无需认证
适用费率限制
仅限于公开内容
私有仓库
需要GitHub访问令牌
更高的速率限制
访问私人内容
企业支持
文档结构
每份文件包含:
pageContent:文件内容
元数据:
source: 存储库中的文件路径
branch: 存储库分支
commit: 提交哈希值
额外的自定义元数据
注释
支持公共和私有仓库
支持企业级GitHub实例
速率限制已自动处理
重试时的指数级退避
使用通配符模式进行路径过滤
内存高效处理
针对无效仓库的错误处理
Last updated