Spider - web search & crawler

Spider Node
蜘蛛网络爬虫/爬行器节点

Spider 是最快的开源网页抓取器和爬虫,可返回适用于大型语言模型(LLM)的数据。要开始使用此节点,您需要从 Spider.cloud 获取一个 API 密钥。

快速入门

  1. 前往Spider.cloud网站并注册一个免费账户。

  2. 然后前往API密钥页面,并创建一个新的API密钥。

  3. 复制API密钥并将其粘贴到Spider节点中的“凭证”字段中。

功能

  • 两种操作模式:刮擦和爬行

  • 文本分割功能

  • 可定制的元数据处理

  • 参数配置灵活

  • 多种输出格式

  • Markdown格式的内容

  • 速率限制处理

输入

必填参数

  • 模式:在以下选项中选择:

    • 爬取:从单个页面中提取数据

    • 爬取(Crawl):从同一域内的多个页面中提取数据

  • 网页URL:要抓取或爬取的目标URL(例如,https://spider.cloud)

  • 凭证:Spider API密钥

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 限制:可爬取的最大页面数(默认值:25,仅适用于爬取模式)

  • 附加元数据:一个JSON对象,其中包含要添加到文档中的附加元数据

  • 附加参数:包含Spider API参数的JSON对象 示例:{ "anti_bot": true }

    • 注意:return_format 始终设置为 "markdown"

  • 省略元数据键:以逗号分隔的需排除的元数据键列表

    • 格式:key1, key2, key3.nestedKey1 使用*来移除所有默认元数据

输出

  • Document:文档对象数组,包含:

    • 元数据:页面元数据和自定义字段

    • pageContent:以Markdown格式提取的内容

  • 文本:所有提取内容的拼接字符串

文档结构

每份文件包含:

  • pageContent:网页中的主要内容,采用Markdown格式

  • 元数据

    • source: 页面的URL

    • 额外的自定义元数据(如已指定)

    • 已过滤元数据(基于省略的键)

使用示例

基本爬取


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  "模式":"抓取",
  "url": "https://example.com",,
  “limit”: 1
}

高级爬虫


/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
  "模式":"爬行",,
  "url": "https://example.com",,
  “limit”:25,
  "additional_metadata": {
    "category": "博客",,
    "source_type": "网页"
  },
  "params": {
    "anti_bot": true,,
    "等待": ".content-loaded"
  }
}

示例

使用蜘蛛节点示例
使用蜘蛛节点示例

注意事项

爬虫程序遵守爬取操作指定的限制 所有内容均以Markdown格式返回

  • 抓取和爬取操作均内置了错误处理机制

  • 无效的JSON配置会被妥善处理

  • 对大型网站进行内存高效处理

  • 支持单页和多页提取

  • 自动元数据处理和过滤

Last updated