Github

Github节点

GitHub是一个用于版本控制和协作的平台。此模块提供从GitHub存储库加载和处理内容的功能,支持公共和私有存储库。

此模块提供了一个功能强大的GitHub文档加载器,该加载器能够:

  • 从GitHub仓库加载内容

  • 支持私有仓库访问

  • 递归处理存储库

  • 处理自定义GitHub实例

  • 控制并发和重试

  • 自定义文件过滤

  • 使用文本分割工具处理内容

输入

必填参数

  • 仓库链接:GitHub 仓库的 URL(例如,https://github.com/FlowiseAI/Flowise)

  • Branch:从哪个分支加载内容(默认:main)

可选参数

  • 连接凭据:GitHub API 凭据(私有仓库必需)

  • 递归:是否处理子目录

  • 最大并发数:并发加载文件的最大数量

  • Github Base URL:为企业实例自定义GitHub基础URL

  • Github实例API:企业实例的自定义GitHub API URL

  • 忽略路径:一个包含要忽略的路径的通配符模式的数组

  • 最大重试次数:重试尝试的最大次数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的形式列出要省略的元数据键

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:来自文档pageContent的拼接字符串

功能

  • 支持公共/私有仓库

  • 企业实例支持

  • 递归目录处理

  • 并发控制

  • 重试机制

  • 路径过滤

  • 文本分割支持

  • 元数据定制

身份验证方法

公共仓库

  • 无需认证

  • 适用费率限制

  • 仅限于公开内容

私有仓库

  • 需要GitHub访问令牌

  • 更高的速率限制

  • 访问私人内容

  • 企业支持

文档结构

每份文件包含:

  • pageContent:文件内容

  • 元数据

    • source: 存储库中的文件路径

    • branch: 存储库分支

    • commit: 提交哈希值

    • 额外的自定义元数据

注释

  • 支持公共和私有仓库

  • 支持企业级GitHub实例

  • 速率限制已自动处理

  • 重试时的指数级退避

  • 使用通配符模式进行路径过滤

  • 内存高效处理

  • 针对无效仓库的错误处理

Last updated