S3 File Loader

Amazon S3(简单存储服务)是一种对象存储服务,提供业界领先的可扩展性、数据可用性、安全性和性能。该模块具备全面的功能,可加载和处理存储在S3存储桶中的文件。

此模块提供了一个功能强大的S3文档加载器,该加载器能够:

  • 使用AWS凭证从S3存储桶中加载文件

  • 支持多种文件格式(PDF、DOCX、CSV、Excel、PowerPoint、文本文件)

  • 使用内置加载器或Unstructured.io API处理文件

  • 处理文本和二进制文件

  • 自定义元数据提取

输入

必选参数

  • Bucket:S3存储桶的名称

  • Object Key:S3存储桶中对象的唯一标识符

  • Region:存储桶所在的AWS区域(默认:us-east-1)

处理选项

  • 文件处理方法:在以下选项中选择:

    • 内置加载器:使用原生文件格式处理器

    • 非结构化:使用Unstructured.io API进行高级处理

  • 文本分割器(可选):用于内置处理的文本分割器

  • 附加元数据(可选):包含附加元数据的JSON对象

  • 忽略元数据键(可选):要从元数据中忽略的键

Unstructured.io 选项

  • 非结构化API URL:Unstructured.io API的端点

  • 非结构化API KEY(可选):用于身份验证的API密钥

  • 策略:处理策略(高分辨率、快速、仅光学字符识别、自动)

  • 编码:文本编码方式(默认值:utf-8)

  • 跳过推断表格类型:记录需跳过表格提取的文档类型

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • AWS S3集成

  • 支持多种文件格式

  • 内置和非结构化.io处理

  • 可配置的AWS区域

  • 灵活的元数据处理

  • 二进制文件处理

  • 临时文件管理

  • MIME类型检测

支持的文件类型

  • PDF文档

  • 微软Word(DOCX)

  • 微软Excel

  • 微软PowerPoint

  • CSV文件

  • 文本文件

  • 并且通过Unstructured.io获取更多信息

注意事项

  • 需要AWS凭据(如果使用IAM角色,则可选)

  • 某些文件类型可能需要特定的处理方法

  • Unstructured.io API需要单独设置和凭证

  • 临时文件会自动创建和管理

  • 不支持的文件类型错误处理

非结构化设置

你可以使用托管API,也可以通过Docker在本地运行。

  • Docker:docker run -p 8000:8000 -d --rm --name unstructured-api quay.io/unstructured-io/unstructured-api:latest --port 8000 --host 0.0.0.0

S3文件加载器设置

  1. 将S3文件加载器拖放到画布上:

  1. AWS凭证:为您的AWS账户创建一个新的凭证。您将需要访问密钥和秘密密钥。请记住将S3存储桶策略授予相关账户。您可以参考策略指南点击此处

  1. 存储桶:登录您的AWS控制台并导航至S3。获取您的存储桶名称:

  1. 键:点击您想要使用的对象,并获取键名:

  1. 非结构化API URL:根据您使用非结构化的方式,无论是通过托管API还是Docker,都需要更改非结构化API URL参数。如果您使用的是托管API,还需要API密钥。

  2. 然后,您就可以开始与S3中的文件进行聊天了。您无需指定文本分割器来对文档进行分块,因为Unstructured会自动处理这一步。

Last updated