Notion

Notion是一个协作平台,集笔记、知识管理和项目管理于一体。此模块提供了三种不同的加载器来处理Notion内容:数据库加载器、页面加载器和文件夹加载器。

Notion数据库加载器

Notion数据库节点

数据库加载器从Notion数据库中提取内容,将每一行视为一个单独的文档。

功能

  • 将数据库行作为文档加载

  • 将属性提取为元数据

  • 支持属性头

  • 处理并发加载

  • 使用文本分割工具处理内容

  • 自定义元数据提取

必选参数

  • 连接凭证:Notion API 凭证

  • 数据库ID:Notion数据库的唯一标识符

Notion页面加载器

Notion页面节点

页面加载器从Notion页面中提取内容,包括所有子页面,并将它们作为单独的文档提取出来。

功能

  • 将页面内容作为文档加载

  • 递归处理子页面

  • 提取页面属性

  • 处理页面层级结构

  • 支持文本分割

  • 自定义元数据提取

必选参数

  • 连接凭证:Notion API 凭证

  • 页面ID:页面URL中的32位字符的十六进制标识符

Notion文件夹加载器

文件夹加载器处理从本地文件夹中导出并解压的Notion内容。

功能特性

  • 处理导出的Notion内容

  • 处理多页内容

  • 支持本地文件系统

  • 提取页面内容

  • 保持文档结构

  • 支持文本分割

  • 自定义元数据提取

必填参数

  • Notion文件夹:导出并解压后的Notion文件夹的路径

共同特征

所有Notion加载器都支持:

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

身份验证

API认证(数据库与页面加载器)

  • 需要Notion集成令牌

  • API速率限制已自动处理

  • 支持工作区级别的访问

  • 安全的凭证管理

本地访问(文件夹加载器)

  • 无需身份验证

  • 直接访问文件系统

  • 处理离线内容

  • 处理导出数据

文档结构

每份文件包含:

  • pageContent:提取的文本内容

  • 元数据

    • 来源:原始来源(URL或文件路径)

    • title: 页面或数据库标题

    • 属性:Notion属性

    • 额外的自定义元数据

注释

  • API加载器需要设置Notion集成

  • 文件夹加载器需要已导出的内容

  • 自动处理速率限制

  • 内存高效处理

  • 无效输入的错误处理

  • 支持大型数据集

  • 输出格式灵活

  • 元数据定制

Last updated