Google Drive

Google Drive是一项云存储和文件同步服务。该模块提供从Google Drive加载和处理文件的功能,支持多种文件格式和Google Workspace文档。

此模块提供了一个功能强大的Google Drive文档加载器,该加载器可以:

  • 加载多种文件类型

  • 处理Google Workspace文档

  • 处理基于文件夹的加载

  • 支持共享驱动器

  • 递归处理文件

  • 自定义文件类型过滤

  • 处理OAuth2身份验证

必填参数

  • 连接凭证:Google Drive OAuth2 凭证。请参阅 #Google Drive

  • 选择文件文件夹ID:选择特定文件或提供文件夹ID

可选参数

  • 文件类型:要加载的文件类型:

    • 谷歌文档

    • Google表格

    • Google幻灯片

    • PDF文件

    • 文本文件

    • Word文档

    • PowerPoint(一种演示文稿软件)

    • Excel文件

  • 包含子文件夹:处理子文件夹中的文件

  • 包含共享驱动器:从共享驱动器中访问文件

  • 最大文件数:可加载的最大文件数量(默认值:50)

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 忽略元数据键:以逗号分隔的需忽略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

支持的文件类型

Google Workspace

  • 谷歌文档(application/vnd.google-apps.document)

  • Google表格(application/vnd.google-apps.spreadsheet)

  • Google幻灯片(application/vnd.google-apps.presentation)

微软Office

  • Word文件(.docx)

  • Excel(.xlsx)

  • PowerPoint(.pptx)

其他格式

  • 可携式文档格式(.pdf)

  • 文本文件(.txt)

功能

  • OAuth2 身份验证

  • 支持多种文件类型

  • 文件夹处理

  • 共享驱动器访问权限

  • 文件类型过滤

  • 文本分割支持

  • 元数据定制

  • 错误处理

加载方法

文件选择模式

  • 直接文件选择

  • 支持多个文件

  • 文件类型过滤

  • 元数据保存

文件夹模式

  • 递归文件夹处理

  • 子文件夹支持

  • 文件类型过滤

  • 批处理

文档结构

每份文件包含:

  • pageContent:从文件中提取的内容

  • 元数据

    • fileName: 原始文件名

    • fileType:MIME类型

    • fileId:谷歌云端硬盘文件ID

    • 来源:文件路径/URL

    • 额外的自定义元数据

注意事项

  • 需要OAuth2身份验证

  • 处理速率限制

  • 支持大文件

  • 临时文件管理

  • 内存高效处理

  • 无效文件的错误处理

  • 自动刷新令牌

Last updated