Spider - web search & crawler

Spider 是最快的开源网页抓取器和爬虫，可返回适用于大型语言模型（LLM）的数据。要开始使用此节点，您需要从 Spider.cloud 获取一个 API 密钥。

快速入门

前往Spider.cloud网站并注册一个免费账户。
然后前往API密钥页面，并创建一个新的API密钥。
复制API密钥并将其粘贴到Spider节点中的“凭证”字段中。

功能

两种操作模式：刮擦和爬行
文本分割功能
可定制的元数据处理
参数配置灵活
多种输出格式
Markdown格式的内容
速率限制处理

输入

必填参数

模式：在以下选项中选择：
- 爬取：从单个页面中提取数据
- 爬取（Crawl）：从同一域内的多个页面中提取数据
网页URL：要抓取或爬取的目标URL（例如，https://spider.cloud）
凭证：Spider API密钥

可选参数

文本分割器：用于处理提取内容的文本分割器
限制：可爬取的最大页面数（默认值：25，仅适用于爬取模式）
附加元数据：一个JSON对象，其中包含要添加到文档中的附加元数据
附加参数：包含Spider API参数的JSON对象示例：{ "anti_bot": true }
- 注意：return_format 始终设置为 "markdown"
省略元数据键：以逗号分隔的需排除的元数据键列表
- 格式：key1, key2, key3.nestedKey1 使用*来移除所有默认元数据

输出

Document：文档对象数组，包含：
- 元数据：页面元数据和自定义字段
- pageContent：以Markdown格式提取的内容
文本：所有提取内容的拼接字符串

文档结构

每份文件包含：

pageContent：网页中的主要内容，采用Markdown格式
元数据：
- source: 页面的URL
- 额外的自定义元数据（如已指定）
- 已过滤元数据（基于省略的键）

使用示例

基本爬取


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  "模式"："抓取"，
  "url": "https://example.com",，
  “limit”: 1
}

高级爬虫


/// 译文内容：
---
根据上面的信息，执行如下指令：
缺失译文，请检查输入
{
  "模式"："爬行",，
  "url": "https://example.com",，
  “limit”：25，
  "additional_metadata": {
    "category": "博客",，
    "source_type": "网页"
  },
  "params": {
    "anti_bot": true,，
    "等待": ".content-loaded"
  }
}

示例

注意事项

爬虫程序遵守爬取操作指定的限制所有内容均以Markdown格式返回

抓取和爬取操作均内置了错误处理机制
无效的JSON配置会被妥善处理
对大型网站进行内存高效处理
支持单页和多页提取
自动元数据处理和过滤

PreviousSerpApi For Web Search NextText File

Last updated 6 days ago

Good night

快速入门

功能

输入

必填参数

可选参数

输出

文档结构

使用示例

基本爬取

高级爬虫

示例

注意事项