S3 File Loader
Amazon S3(简单存储服务)是一种对象存储服务,提供业界领先的可扩展性、数据可用性、安全性和性能。该模块具备全面的功能,可加载和处理存储在S3存储桶中的文件。
此模块提供了一个功能强大的S3文档加载器,该加载器能够:
使用AWS凭证从S3存储桶中加载文件
支持多种文件格式(PDF、DOCX、CSV、Excel、PowerPoint、文本文件)
使用内置加载器或Unstructured.io API处理文件
处理文本和二进制文件
自定义元数据提取
输入
必选参数
Bucket:S3存储桶的名称
Object Key:S3存储桶中对象的唯一标识符
Region:存储桶所在的AWS区域(默认:us-east-1)
处理选项
文件处理方法:在以下选项中选择:
内置加载器:使用原生文件格式处理器
非结构化:使用Unstructured.io API进行高级处理
文本分割器(可选):用于内置处理的文本分割器
附加元数据(可选):包含附加元数据的JSON对象
忽略元数据键(可选):要从元数据中忽略的键
Unstructured.io 选项
非结构化API URL:Unstructured.io API的端点
非结构化API KEY(可选):用于身份验证的API密钥
策略:处理策略(高分辨率、快速、仅光学字符识别、自动)
编码:文本编码方式(默认值:utf-8)
跳过推断表格类型:记录需跳过表格提取的文档类型
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
AWS S3集成
支持多种文件格式
内置和非结构化.io处理
可配置的AWS区域
灵活的元数据处理
二进制文件处理
临时文件管理
MIME类型检测
支持的文件类型
PDF文档
微软Word(DOCX)
微软Excel
微软PowerPoint
CSV文件
文本文件
并且通过Unstructured.io获取更多信息
注意事项
需要AWS凭据(如果使用IAM角色,则可选)
某些文件类型可能需要特定的处理方法
Unstructured.io API需要单独设置和凭证
临时文件会自动创建和管理
不支持的文件类型错误处理
非结构化设置
你可以使用托管API,也可以通过Docker在本地运行。
Docker:
docker run -p 8000:8000 -d --rm --name unstructured-api quay.io/unstructured-io/unstructured-api:latest --port 8000 --host 0.0.0.0
S3文件加载器设置
将S3文件加载器拖放到画布上:

AWS凭证:为您的AWS账户创建一个新的凭证。您将需要访问密钥和秘密密钥。请记住将S3存储桶策略授予相关账户。您可以参考策略指南点击此处。

存储桶:登录您的AWS控制台并导航至S3。获取您的存储桶名称:

键:点击您想要使用的对象,并获取键名:

非结构化API URL:根据您使用非结构化的方式,无论是通过托管API还是Docker,都需要更改非结构化API URL参数。如果您使用的是托管API,还需要API密钥。
然后,您就可以开始与S3中的文件进行聊天了。您无需指定文本分割器来对文档进行分块,因为Unstructured会自动处理这一步。

Last updated