Unstructured File Loader

非结构化文件加载器使用Unstructured.io来提取和处理各种文件格式的内容。它提供了高级文档解析功能,并具有用于OCR、分块和元数据提取的可配置选项。
功能
高级文档解析
支持多种语言选项的OCR功能
灵活的分块策略
表结构推断
坐标提取
分页处理
XML标签处理
可定制的模型选择
元数据提取
配置
API设置
默认API网址:
https://api.unstructuredapp.io/general/v0/general需要Unstructured.io的API密钥
可通过环境变量进行配置:
UNSTRUCTURED_API_URLUNSTRUCTURED_API_KEY
处理策略
策略:默认值为“hi_res” 选项包括针对不同文档类型的各种处理策略
分块策略:
无(默认)
by_title(根据标题对文本进行分块)
参数
必选参数
文件:待处理的文档
API Key:Unstructured.io API密钥(如果未通过环境设置)
可选参数
OCR选项
OCR语言:用于OCR处理的语言数组
编码:指定文档编码
处理选项
坐标:提取元素坐标(真/假)
PDF表格结构:推断PDF中的表格结构(真/假)
XML标签:在输出中保留XML标签(true/false)
跳过表类型:需跳过推理的表类型数组
高分辨率模型:指定高分辨率模型的名称
包含分页符:包含分页符信息(true/false)
文本分块选项
多页部分:处理跨页的部分(真/假)
合并N个字符以下: 合并指定字符数以下的元素
在N个字符后新建:在指定字符数后创建新元素
最大字符数:每个元素的最大字符数
输出结构
文档格式
每个处理后的元素都会成为一个文档,其中包含:
pageContent:提取的文本内容
元数据:
类别:元素类型
处理过程中产生的额外元数据
元素类型
加载器可以识别各种元素类型:
文本块
表格
列表
标题
页脚
分页符(如果已启用)
其他结构元素
使用示例
基本配置
/// 译文内容:
---
根据上面的信息,执行如下指令:
你是个专业的翻译,负责把英语内容翻译成中文内容,请帮我翻译一下原文内容
{
"apiKey": "你的API密钥",,
"strategy": "hi_res",,
"ocrLanguages": ["eng"]
}高级处理
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"apiKey": "你的API密钥",,
"strategy": "hi_res",,
"coordinates": true,,
"pdfInferTableStructure": true,,
"分块策略":"按标题",,
"multiPageSections": true,,
"combineUnderNChars": 100,,
“maxCharacters”:4000
}注意事项
每个文件处理请求都会进行API调用
响应包含带有文本和元数据的结构化元素
对元素进行过滤,以确保文本内容有效
支持基于缓冲区的处理
API响应的错误处理
自动元数据分类
内存高效处理
最佳实践
根据你的使用场景设置合适的分块参数
考虑非英语文档的OCR语言设置
为包含表格的文档启用表格结构推断
当空间信息很重要时,使用坐标
根据下游处理需求配置字符限制
监控API使用情况和响应时间
在您的工作流程中处理潜在的API错误
本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。
Last updated