Microsoft Excel

Microsoft Excel是一款电子表格程序,具备计算工具、数据透视表和宏编程语言等功能。本模块提供了使用SheetJS加载和处理Excel文件的功能。

此模块提供了一个功能强大的Excel文档加载器,该加载器可以:

  • 加载多种Excel文件格式

  • 处理多个工作表

  • 将行转换为结构化文档

  • 处理各种数据类型

  • 保留单元格格式

  • 按行提取元数据

  • 支持类型推断

输入

必选参数

  • Excel文件:要处理的Excel文件(.xls、.xlsx、.xlsm、.xlsb)

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 支持多种格式

  • 多张处理

  • 数据类型保持

  • 元数据提取

  • 类型推断

  • 错误处理

  • 内存高效处理

支持的格式

  • Excel 二进制文件(.xls)

  • Excel工作簿(.xlsx)

  • 启用宏的Excel文件(.xlsm)

  • Excel 二进制工作簿(.xlsb)

数据类型处理

支持的类型

  • 文本(字符串)

  • 数字(number)

  • 日期(date)

  • 布尔值(boolean)

  • 公式(计算值)

  • 空单元格(null)

文档结构

每份文件包含:

  • pageContent:格式化的行内容,以键值对的形式呈现

  • 元数据

    • 工作表:工作表名称

    • rowNum:行索引

    • 原始列值

    • 额外的自定义元数据

行处理

每一行都会被转换为一个文档,并包含以下内容:

  • 每个单元格的键值对

  • 保留列标题

  • 类型信息

  • 行位置

元数据属性

默认属性包括:

  • 工作表:工作表名称(字符串)

  • rowNum:行索引(数字)

  • 基于列标题的动态属性

注释

  • 使用SheetJS进行解析

  • 保留数据类型

  • 可处理多张工作表

  • 推断列类型

  • 内存高效处理

  • 无效文件的错误处理

  • 输出格式灵活

  • 列类型推断

Last updated