Google Drive

Google Drive是一项云存储和文件同步服务。该模块提供从Google Drive加载和处理文件的功能,支持多种文件格式和Google Workspace文档。
此模块提供了一个功能强大的Google Drive文档加载器,该加载器可以:
加载多种文件类型
处理Google Workspace文档
处理基于文件夹的加载
支持共享驱动器
递归处理文件
自定义文件类型过滤
处理OAuth2身份验证
必填参数
连接凭证:Google Drive OAuth2 凭证。请参阅 #Google Drive
选择文件 或 文件夹ID:选择特定文件或提供文件夹ID
可选参数
文件类型:要加载的文件类型:
谷歌文档
Google表格
Google幻灯片
PDF文件
文本文件
Word文档
PowerPoint(一种演示文稿软件)
Excel文件
包含子文件夹:处理子文件夹中的文件
包含共享驱动器:从共享驱动器中访问文件
最大文件数:可加载的最大文件数量(默认值:50)
文本分割器:用于处理提取内容的文本分割器
附加元数据:包含附加元数据的JSON对象
忽略元数据键:以逗号分隔的需忽略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
支持的文件类型
Google Workspace
谷歌文档(application/vnd.google-apps.document)
Google表格(application/vnd.google-apps.spreadsheet)
Google幻灯片(application/vnd.google-apps.presentation)
微软Office
Word文件(.docx)
Excel(.xlsx)
PowerPoint(.pptx)
其他格式
可携式文档格式(.pdf)
文本文件(.txt)
功能
OAuth2 身份验证
支持多种文件类型
文件夹处理
共享驱动器访问权限
文件类型过滤
文本分割支持
元数据定制
错误处理
加载方法
文件选择模式
直接文件选择
支持多个文件
文件类型过滤
元数据保存
文件夹模式
递归文件夹处理
子文件夹支持
文件类型过滤
批处理
文档结构
每份文件包含:
pageContent:从文件中提取的内容
元数据:
fileName: 原始文件名
fileType:MIME类型
fileId:谷歌云端硬盘文件ID
来源:文件路径/URL
额外的自定义元数据
注意事项
需要OAuth2身份验证
处理速率限制
支持大文件
临时文件管理
内存高效处理
无效文件的错误处理
自动刷新令牌
Last updated