Document Store

文档库加载器使您能够从数据库中预先配置的文档库中加载数据。此加载器提供了一种便捷的方式,让您可以在工作流程中访问和使用之前处理和存储的文档。
功能
从已同步的存储区加载文档
自动元数据处理
多种输出格式
异步店铺选择
数据库集成
基于分块的文档检索
JSON元数据支持
工作原理
店铺选择:
列出所有处于“SYNC”状态的可用文档库
提供店铺信息,包括名称和描述
仅允许从已同步的商店中进行选择
文档检索:
从所选存储区获取文档块
使用原始元数据重建文档
维护文档结构和关系
参数
必选参数
选择存储区:从已同步的可用文档存储区中进行选择
显示店铺名称和描述
仅显示“SYNC”状态的门店
根据数据库内容动态更新
输出
该加载器提供两种输出格式:
文档输出
返回一个文档对象数组,每个对象包含:
pageContent:文档块的实际内容
metadata:JSON格式的原始文档元数据
文本输出
返回一个包含以下内容的拼接字符串:
所有文档块的内容
用换行符分隔
正确转义的字符
数据库集成
加载器通过以下方式与您的数据库集成:
TypeORM数据源连接
文档存储实体管理
基于数据块的存储与检索
元数据保存
文档结构
每个加载的文档包含:
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
pageContent: string, // 实际内容
元数据:{ // 解析后的JSON元数据
// 原始文档元数据
// 特定于商店的信息
// 自定义元数据字段
}
}使用示例
基本店铺选择
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"selectedStore": "商店ID-123"
}访问文档内容
/// 译文内容:
---
根据上面的信息,执行如下指令:
你是个专业的翻译,负责把英语内容翻译成中文内容,请帮我翻译一下原文内容
// 文档输出格式
[
{
"pageContent": "这里的文档内容...",,
"metadata": {
"source": "原始文件.pdf",,
"page": 1,,
"category": "报告"
}
}
]
// 文本输出格式
“文档内容在此处...\n下一文档内容在此处...\n”实践示范
确保在访问之前商店数据已同步
根据你的使用场景选择合适的输出格式
在你的工作流程中妥善处理元数据
处理大型文档时,需考虑数据块大小
监控大型存储环境下的数据库性能
注意事项
仅同步的商店可供选择
元数据是从JSON中自动解析出来的
文档是由数据块重构而成的
支持文档和文本两种输出格式
与TypeORM集成以进行数据库访问
处理文本输出中的转义字符
保持原始文档结构
本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。
Last updated