FireCrawl

FireCrawl

FireCrawl节点

FireCrawl 文档加载器

FireCrawl是一款功能强大的网络爬虫和抓取服务,具备从网站提取内容的高级功能。此模块可通过FireCrawl API加载和处理网络内容。

此模块提供了一个功能强大的网络爬虫,它可以:

  • 抓取单个网页

  • 爬取整个网站

  • 提取结构化数据

  • 处理由JavaScript渲染的内容

  • 使用文本分割工具处理内容

  • 自定义元数据提取

  • 支持多种操作模式

输入

必选参数

  • URL:待处理的网页或网站URL

  • 连接凭证:FireCrawl API 凭证

  • 模式:在以下选项中选择:

    • Scrape:单页提取

    • 爬取:多页面网站爬取

    • 提取:结构化数据提取

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 抓取选项

    • 包含标签:要包含的HTML标签

    • 排除标签:需排除的HTML标签

    • 移动设备:使用移动用户代理

    • 跳过TLS验证:绕过SSL检查

    • Timeout: 请求超时

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 多种操作模式

  • 高级抓取选项

  • 结构化数据提取

  • JavaScript渲染

  • 移动设备模拟

  • 自定义超时设置

  • 错误处理

操作模式

抓取模式

  • 单页处理

  • 主要内容提取

  • 格式选择

  • 自定义标签过滤

爬行模式

  • 多页爬取

  • 子域处理

  • 网站地图处理

  • 链接提取

提取模式

  • 结构化数据提取

  • 基于模式的解析

  • 基于大型语言模型(LLM)的抽取

  • 自定义提取提示

文档结构

每份文件包含:

  • pageContent:以Markdown格式提取的内容

  • 元数据

    • title: 页面标题

    • 描述:元描述

    • 语言:内容语言

    • sourceURL:原始URL

    • 额外的自定义元数据

注意事项

  • 需要有效的FireCrawl API密钥

  • 支持多种内容格式

  • 处理速率限制

  • 作业状态监控

  • 错误处理和重试

  • 可定制的请求选项

  • 内存高效处理

Last updated