GitBook

GitBook

GitBook 节点

GitBook 文档加载器

GitBook是一个现代化的文档平台,可帮助团队共享知识。此模块提供从GitBook文档站点加载和处理内容的功能。

此模块提供了一个功能强大的GitBook文档加载器,该加载器能够:

  • 从特定的GitBook页面加载内容

  • 爬取整个GitBook文档网站

  • 提取结构化内容

  • 使用文本分割工具处理内容

  • 自定义元数据提取

  • 处理递归页面加载

输入

必填参数

  • Web路径:GitBook页面的URL或根路径

    • 单页:例如,https://docs.gitbook.com/product-tour/navigation

    • 根路径:例如,https://docs.gitbook.com/

可选参数

  • 是否应加载所有路径:是否从根路径递归加载所有页面

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 单页加载

  • 递归式网站爬取

  • 内容提取

  • 文本分割支持

  • 元数据定制

  • 错误处理

  • 路径管理

加载模式

单页模式

  • 从特定页面加载内容

  • 提取页面内容和元数据

  • 保留页面结构

  • 单页访问速度更快

所有路径模式

  • 从根目录递归加载所有页面

  • 维护网站层级结构

  • 提取所有可用内容

  • 保留导航结构

文档结构

每份文件包含:

  • pageContent:从页面中提取的内容

  • 元数据

    • title: 页面标题

    • url: 原始页面URL

    • 额外的自定义元数据

注意事项

  • 支持单页加载和全站加载

  • 处理GitBook的动态内容

  • 保留文档结构

  • 支持添加自定义元数据

  • 无效URL的错误处理

  • 内存高效处理

  • 输出格式灵活

Last updated