FireCrawl
FireCrawl

FireCrawl 文档加载器
FireCrawl是一款功能强大的网络爬虫和抓取服务,具备从网站提取内容的高级功能。此模块可通过FireCrawl API加载和处理网络内容。
此模块提供了一个功能强大的网络爬虫,它可以:
抓取单个网页
爬取整个网站
提取结构化数据
处理由JavaScript渲染的内容
使用文本分割工具处理内容
自定义元数据提取
支持多种操作模式
输入
必选参数
URL:待处理的网页或网站URL
连接凭证:FireCrawl API 凭证
模式:在以下选项中选择:
Scrape:单页提取
爬取:多页面网站爬取
提取:结构化数据提取
可选参数
文本分割器:用于处理提取内容的文本分割器
抓取选项:
包含标签:要包含的HTML标签
排除标签:需排除的HTML标签
移动设备:使用移动用户代理
跳过TLS验证:绕过SSL检查
Timeout: 请求超时
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
多种操作模式
高级抓取选项
结构化数据提取
JavaScript渲染
移动设备模拟
自定义超时设置
错误处理
操作模式
抓取模式
单页处理
主要内容提取
格式选择
自定义标签过滤
爬行模式
多页爬取
子域处理
网站地图处理
链接提取
提取模式
结构化数据提取
基于模式的解析
基于大型语言模型(LLM)的抽取
自定义提取提示
文档结构
每份文件包含:
pageContent:以Markdown格式提取的内容
元数据:
title: 页面标题
描述:元描述
语言:内容语言
sourceURL:原始URL
额外的自定义元数据
注意事项
需要有效的FireCrawl API密钥
支持多种内容格式
处理速率限制
作业状态监控
错误处理和重试
可定制的请求选项
内存高效处理
Last updated