Document Store

文档存储节点

文档库加载器使您能够从数据库中预先配置的文档库中加载数据。此加载器提供了一种便捷的方式,让您可以在工作流程中访问和使用之前处理和存储的文档。

功能

  • 从已同步的存储区加载文档

  • 自动元数据处理

  • 多种输出格式

  • 异步店铺选择

  • 数据库集成

  • 基于分块的文档检索

  • JSON元数据支持

工作原理

  1. 店铺选择

    • 列出所有处于“SYNC”状态的可用文档库

    • 提供店铺信息,包括名称和描述

    • 仅允许从已同步的商店中进行选择

  2. 文档检索

    • 从所选存储区获取文档块

    • 使用原始元数据重建文档

    • 维护文档结构和关系

参数

必选参数

  • 选择存储区:从已同步的可用文档存储区中进行选择

    • 显示店铺名称和描述

    • 仅显示“SYNC”状态的门店

    • 根据数据库内容动态更新

输出

该加载器提供两种输出格式:

文档输出

返回一个文档对象数组,每个对象包含:

  • pageContent:文档块的实际内容

  • metadata:JSON格式的原始文档元数据

文本输出

返回一个包含以下内容的拼接字符串:

  • 所有文档块的内容

  • 用换行符分隔

  • 正确转义的字符

数据库集成

加载器通过以下方式与您的数据库集成:

  • TypeORM数据源连接

  • 文档存储实体管理

  • 基于数据块的存储与检索

  • 元数据保存

文档结构

每个加载的文档包含:


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  pageContent: string,    // 实际内容
  元数据:{            // 解析后的JSON元数据
    // 原始文档元数据
    // 特定于商店的信息
    // 自定义元数据字段
  }
}

使用示例

基本店铺选择


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  "selectedStore": "商店ID-123"
}

访问文档内容


/// 译文内容:
---
根据上面的信息,执行如下指令:
你是个专业的翻译,负责把英语内容翻译成中文内容,请帮我翻译一下原文内容
// 文档输出格式
[
  {
    "pageContent": "这里的文档内容...",,
    "metadata": {
      "source": "原始文件.pdf",,
      "page": 1,,
      "category": "报告"
    }
  }
]

// 文本输出格式
“文档内容在此处...\n下一文档内容在此处...\n”

实践示范

  1. 确保在访问之前商店数据已同步

  2. 根据你的使用场景选择合适的输出格式

  3. 在你的工作流程中妥善处理元数据

  4. 处理大型文档时,需考虑数据块大小

  5. 监控大型存储环境下的数据库性能

注意事项

  • 仅同步的商店可供选择

  • 元数据是从JSON中自动解析出来的

  • 文档是由数据块重构而成的

  • 支持文档和文本两种输出格式

  • 与TypeORM集成以进行数据库访问

  • 处理文本输出中的转义字符

  • 保持原始文档结构

本节内容仍在完善中。我们非常感谢您为完善本节内容所提供的任何帮助。

Last updated