Document Store

文档库加载器使您能够从数据库中预先配置的文档库中加载数据。此加载器提供了一种便捷的方式，让您可以在工作流程中访问和使用之前处理和存储的文档。

功能

从已同步的存储区加载文档
自动元数据处理
多种输出格式
异步店铺选择
数据库集成
基于分块的文档检索
JSON元数据支持

工作原理

店铺选择：
- 列出所有处于“SYNC”状态的可用文档库
- 提供店铺信息，包括名称和描述
- 仅允许从已同步的商店中进行选择
文档检索：
- 从所选存储区获取文档块
- 使用原始元数据重建文档
- 维护文档结构和关系

参数

必选参数

选择存储区：从已同步的可用文档存储区中进行选择
- 显示店铺名称和描述
- 仅显示“SYNC”状态的门店
- 根据数据库内容动态更新

输出

该加载器提供两种输出格式：

文档输出

返回一个文档对象数组，每个对象包含：

pageContent：文档块的实际内容
metadata：JSON格式的原始文档元数据

文本输出

返回一个包含以下内容的拼接字符串：

所有文档块的内容
用换行符分隔
正确转义的字符

数据库集成

加载器通过以下方式与您的数据库集成：

TypeORM数据源连接
文档存储实体管理
基于数据块的存储与检索
元数据保存

文档结构

每个加载的文档包含：


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  pageContent: string,    // 实际内容
  元数据：{            // 解析后的JSON元数据
    // 原始文档元数据
    // 特定于商店的信息
    // 自定义元数据字段
  }
}

使用示例

基本店铺选择


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  "selectedStore": "商店ID-123"
}

访问文档内容


/// 译文内容：
---
根据上面的信息，执行如下指令：
你是个专业的翻译，负责把英语内容翻译成中文内容，请帮我翻译一下原文内容
// 文档输出格式
[
  {
    "pageContent": "这里的文档内容...",，
    "metadata": {
      "source": "原始文件.pdf",，
      "page": 1,，
      "category": "报告"
    }
  }
]

// 文本输出格式
“文档内容在此处...\n下一文档内容在此处...\n”

实践示范

确保在访问之前商店数据已同步
根据你的使用场景选择合适的输出格式
在你的工作流程中妥善处理元数据
处理大型文档时，需考虑数据块大小
监控大型存储环境下的数据库性能

注意事项

仅同步的商店可供选择
元数据是从JSON中自动解析出来的
文档是由数据块重构而成的
支持文档和文本两种输出格式
与TypeORM集成以进行数据库访问
处理文本输出中的转义字符
保持原始文档结构

本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。

PreviousCustom Document Loader NextDocx File

Last updated 6 days ago

Good night

功能