Unstructured File Loader

非结构化文件加载器使用Unstructured.io来提取和处理各种文件格式的内容。它提供了高级文档解析功能，并具有用于OCR、分块和元数据提取的可配置选项。

功能

高级文档解析
支持多种语言选项的OCR功能
灵活的分块策略
表结构推断
坐标提取
分页处理
XML标签处理
可定制的模型选择
元数据提取

配置

API设置

默认API网址：https://api.unstructuredapp.io/general/v0/general
需要Unstructured.io的API密钥
可通过环境变量进行配置：
- UNSTRUCTURED_API_URL
- UNSTRUCTURED_API_KEY

处理策略

策略：默认值为“hi_res” 选项包括针对不同文档类型的各种处理策略
分块策略：
- 无（默认）
- by_title（根据标题对文本进行分块）

参数

必选参数

文件：待处理的文档
API Key：Unstructured.io API密钥（如果未通过环境设置）

可选参数

OCR选项

OCR语言：用于OCR处理的语言数组
编码：指定文档编码

处理选项

坐标：提取元素坐标（真/假）
PDF表格结构：推断PDF中的表格结构（真/假）
XML标签：在输出中保留XML标签（true/false）
跳过表类型：需跳过推理的表类型数组
高分辨率模型：指定高分辨率模型的名称
包含分页符：包含分页符信息（true/false）

文本分块选项

多页部分：处理跨页的部分（真/假）
合并N个字符以下: 合并指定字符数以下的元素
在N个字符后新建：在指定字符数后创建新元素
最大字符数：每个元素的最大字符数

输出结构

文档格式

每个处理后的元素都会成为一个文档，其中包含：

pageContent：提取的文本内容
元数据：
- 类别：元素类型
- 处理过程中产生的额外元数据

元素类型

加载器可以识别各种元素类型：

文本块
表格
列表
标题
页脚
分页符（如果已启用）
其他结构元素

使用示例

基本配置


/// 译文内容：
---
根据上面的信息，执行如下指令：
你是个专业的翻译，负责把英语内容翻译成中文内容，请帮我翻译一下原文内容
{
  "apiKey": "你的API密钥",，
  "strategy": "hi_res",，
  "ocrLanguages": ["eng"]
}

高级处理


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  "apiKey": "你的API密钥",，
  "strategy": "hi_res",，
  "coordinates": true,，
  "pdfInferTableStructure": true,，
  "分块策略"："按标题",，
  "multiPageSections": true,，
  "combineUnderNChars": 100,，
  “maxCharacters”：4000
}

注意事项

每个文件处理请求都会进行API调用
响应包含带有文本和元数据的结构化元素
对元素进行过滤，以确保文本内容有效
支持基于缓冲区的处理
API响应的错误处理
自动元数据分类
内存高效处理

最佳实践

根据你的使用场景设置合适的分块参数
考虑非英语文档的OCR语言设置
为包含表格的文档启用表格结构推断
当空间信息很重要时，使用坐标
根据下游处理需求配置字符限制
监控API使用情况和响应时间
在您的工作流程中处理潜在的API错误

本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。

PreviousText File NextUnstructured Folder Loader

Last updated 6 days ago

Good night

功能

配置

API设置

处理策略

参数

必选参数

可选参数

OCR选项

处理选项

文本分块选项

输出结构

文档格式

元素类型

使用示例

基本配置

高级处理

注意事项

最佳实践