Unstructured File Loader

非结构化文件加载器节点

非结构化文件加载器使用Unstructured.io来提取和处理各种文件格式的内容。它提供了高级文档解析功能,并具有用于OCR、分块和元数据提取的可配置选项。

功能

  • 高级文档解析

  • 支持多种语言选项的OCR功能

  • 灵活的分块策略

  • 表结构推断

  • 坐标提取

  • 分页处理

  • XML标签处理

  • 可定制的模型选择

  • 元数据提取

配置

API设置

  • 默认API网址:https://api.unstructuredapp.io/general/v0/general

  • 需要Unstructured.io的API密钥

  • 可通过环境变量进行配置:

    • UNSTRUCTURED_API_URL

    • UNSTRUCTURED_API_KEY

处理策略

  • 策略:默认值为“hi_res” 选项包括针对不同文档类型的各种处理策略

  • 分块策略

    • 无(默认)

    • by_title(根据标题对文本进行分块)

参数

必选参数

  • 文件:待处理的文档

  • API Key:Unstructured.io API密钥(如果未通过环境设置)

可选参数

OCR选项

  • OCR语言:用于OCR处理的语言数组

  • 编码:指定文档编码

处理选项

  • 坐标:提取元素坐标(真/假)

  • PDF表格结构:推断PDF中的表格结构(真/假)

  • XML标签:在输出中保留XML标签(true/false)

  • 跳过表类型:需跳过推理的表类型数组

  • 高分辨率模型:指定高分辨率模型的名称

  • 包含分页符:包含分页符信息(true/false)

文本分块选项

  • 多页部分:处理跨页的部分(真/假)

  • 合并N个字符以下: 合并指定字符数以下的元素

  • 在N个字符后新建:在指定字符数后创建新元素

  • 最大字符数:每个元素的最大字符数

输出结构

文档格式

每个处理后的元素都会成为一个文档,其中包含:

  • pageContent:提取的文本内容

  • 元数据

    • 类别:元素类型

    • 处理过程中产生的额外元数据

元素类型

加载器可以识别各种元素类型:

  • 文本块

  • 表格

  • 列表

  • 标题

  • 页脚

  • 分页符(如果已启用)

  • 其他结构元素

使用示例

基本配置


/// 译文内容:
---
根据上面的信息,执行如下指令:
你是个专业的翻译,负责把英语内容翻译成中文内容,请帮我翻译一下原文内容
{
  "apiKey": "你的API密钥",,
  "strategy": "hi_res",,
  "ocrLanguages": ["eng"]
}

高级处理


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  "apiKey": "你的API密钥",,
  "strategy": "hi_res",,
  "coordinates": true,,
  "pdfInferTableStructure": true,,
  "分块策略":"按标题",,
  "multiPageSections": true,,
  "combineUnderNChars": 100,,
  “maxCharacters”:4000
}

注意事项

  • 每个文件处理请求都会进行API调用

  • 响应包含带有文本和元数据的结构化元素

  • 对元素进行过滤,以确保文本内容有效

  • 支持基于缓冲区的处理

  • API响应的错误处理

  • 自动元数据分类

  • 内存高效处理

最佳实践

  1. 根据你的使用场景设置合适的分块参数

  2. 考虑非英语文档的OCR语言设置

  3. 为包含表格的文档启用表格结构推断

  4. 当空间信息很重要时,使用坐标

  5. 根据下游处理需求配置字符限制

  6. 监控API使用情况和响应时间

  7. 在您的工作流程中处理潜在的API错误

本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。

Last updated