Notion
Notion是一个协作平台,集笔记、知识管理和项目管理于一体。此模块提供了三种不同的加载器来处理Notion内容:数据库加载器、页面加载器和文件夹加载器。
Notion数据库加载器

数据库加载器从Notion数据库中提取内容,将每一行视为一个单独的文档。
功能
将数据库行作为文档加载
将属性提取为元数据
支持属性头
处理并发加载
使用文本分割工具处理内容
自定义元数据提取
必选参数
连接凭证:Notion API 凭证
数据库ID:Notion数据库的唯一标识符
Notion页面加载器

页面加载器从Notion页面中提取内容,包括所有子页面,并将它们作为单独的文档提取出来。
功能
将页面内容作为文档加载
递归处理子页面
提取页面属性
处理页面层级结构
支持文本分割
自定义元数据提取
必选参数
连接凭证:Notion API 凭证
页面ID:页面URL中的32位字符的十六进制标识符
Notion文件夹加载器
文件夹加载器处理从本地文件夹中导出并解压的Notion内容。
功能特性
处理导出的Notion内容
处理多页内容
支持本地文件系统
提取页面内容
保持文档结构
支持文本分割
自定义元数据提取
必填参数
Notion文件夹:导出并解压后的Notion文件夹的路径
共同特征
所有Notion加载器都支持:
可选参数
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
身份验证
API认证(数据库与页面加载器)
需要Notion集成令牌
API速率限制已自动处理
支持工作区级别的访问
安全的凭证管理
本地访问(文件夹加载器)
无需身份验证
直接访问文件系统
处理离线内容
处理导出数据
文档结构
每份文件包含:
pageContent:提取的文本内容
元数据:
来源:原始来源(URL或文件路径)
title: 页面或数据库标题
属性:Notion属性
额外的自定义元数据
注释
API加载器需要设置Notion集成
文件夹加载器需要已导出的内容
自动处理速率限制
内存高效处理
无效输入的错误处理
支持大型数据集
输出格式灵活
元数据定制
Last updated