Ctrlk

FireCrawl

FireCrawl

FireCrawl 文档加载器

FireCrawl是一款功能强大的网络爬虫和抓取服务，具备从网站提取内容的高级功能。此模块可通过FireCrawl API加载和处理网络内容。

此模块提供了一个功能强大的网络爬虫，它可以：

抓取单个网页
爬取整个网站
提取结构化数据
处理由JavaScript渲染的内容
使用文本分割工具处理内容
自定义元数据提取
支持多种操作模式

输入

必选参数

URL：待处理的网页或网站URL
连接凭证：FireCrawl API 凭证
模式：在以下选项中选择：
- Scrape：单页提取
- 爬取：多页面网站爬取
- 提取：结构化数据提取

可选参数

文本分割器：用于处理提取内容的文本分割器
抓取选项：
- 包含标签：要包含的HTML标签
- 排除标签：需排除的HTML标签
- 移动设备：使用移动用户代理
- 跳过TLS验证：绕过SSL检查
- Timeout: 请求超时
附加元数据：包含附加元数据的JSON对象
省略元数据键：以逗号分隔的需省略的元数据键列表

输出

Document：包含元数据和页面内容的文档对象数组
文本：从文档的pageContent中拼接而成的字符串

功能

多种操作模式
高级抓取选项
结构化数据提取
JavaScript渲染
移动设备模拟
自定义超时设置
错误处理

操作模式

抓取模式

单页处理
主要内容提取
格式选择
自定义标签过滤

爬行模式

多页爬取
子域处理
网站地图处理
链接提取

提取模式

结构化数据提取
基于模式的解析
基于大型语言模型（LLM）的抽取
自定义提取提示

文档结构

每份文件包含：

pageContent：以Markdown格式提取的内容
元数据：
- title: 页面标题
- 描述：元描述
- 语言：内容语言
- sourceURL：原始URL
- 额外的自定义元数据

注意事项

需要有效的FireCrawl API密钥
支持多种内容格式
处理速率限制
作业状态监控
错误处理和重试
可定制的请求选项
内存高效处理

PreviousFile NextFolder

Last updated 6 days ago