GitBook
GitBook

GitBook 文档加载器
GitBook是一个现代化的文档平台,可帮助团队共享知识。此模块提供从GitBook文档站点加载和处理内容的功能。
此模块提供了一个功能强大的GitBook文档加载器,该加载器能够:
从特定的GitBook页面加载内容
爬取整个GitBook文档网站
提取结构化内容
使用文本分割工具处理内容
自定义元数据提取
处理递归页面加载
输入
必填参数
Web路径:GitBook页面的URL或根路径
单页:例如,https://docs.gitbook.com/product-tour/navigation
根路径:例如,https://docs.gitbook.com/
可选参数
是否应加载所有路径:是否从根路径递归加载所有页面
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
单页加载
递归式网站爬取
内容提取
文本分割支持
元数据定制
错误处理
路径管理
加载模式
单页模式
从特定页面加载内容
提取页面内容和元数据
保留页面结构
单页访问速度更快
所有路径模式
从根目录递归加载所有页面
维护网站层级结构
提取所有可用内容
保留导航结构
文档结构
每份文件包含:
pageContent:从页面中提取的内容
元数据:
title: 页面标题
url: 原始页面URL
额外的自定义元数据
注意事项
支持单页加载和全站加载
处理GitBook的动态内容
保留文档结构
支持添加自定义元数据
无效URL的错误处理
内存高效处理
输出格式灵活
Last updated