Spider - web search & crawler

Spider 是最快的开源网页抓取器和爬虫,可返回适用于大型语言模型(LLM)的数据。要开始使用此节点,您需要从 Spider.cloud 获取一个 API 密钥。
快速入门
前往Spider.cloud网站并注册一个免费账户。
然后前往API密钥页面,并创建一个新的API密钥。
复制API密钥并将其粘贴到Spider节点中的“凭证”字段中。
功能
两种操作模式:刮擦和爬行
文本分割功能
可定制的元数据处理
参数配置灵活
多种输出格式
Markdown格式的内容
速率限制处理
输入
必填参数
模式:在以下选项中选择:
爬取:从单个页面中提取数据
爬取(Crawl):从同一域内的多个页面中提取数据
网页URL:要抓取或爬取的目标URL(例如,https://spider.cloud)
凭证:Spider API密钥
可选参数
文本分割器:用于处理提取内容的文本分割器
限制:可爬取的最大页面数(默认值:25,仅适用于爬取模式)
附加元数据:一个JSON对象,其中包含要添加到文档中的附加元数据
附加参数:包含Spider API参数的JSON对象 示例:
{ "anti_bot": true }注意:
return_format始终设置为 "markdown"
省略元数据键:以逗号分隔的需排除的元数据键列表
格式:
key1, key2, key3.nestedKey1使用*来移除所有默认元数据
输出
Document:文档对象数组,包含:
元数据:页面元数据和自定义字段
pageContent:以Markdown格式提取的内容
文本:所有提取内容的拼接字符串
文档结构
每份文件包含:
pageContent:网页中的主要内容,采用Markdown格式
元数据:
source: 页面的URL
额外的自定义元数据(如已指定)
已过滤元数据(基于省略的键)
使用示例
基本爬取
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"模式":"抓取",
"url": "https://example.com",,
“limit”: 1
}高级爬虫
/// 译文内容:
---
根据上面的信息,执行如下指令:
缺失译文,请检查输入
{
"模式":"爬行",,
"url": "https://example.com",,
“limit”:25,
"additional_metadata": {
"category": "博客",,
"source_type": "网页"
},
"params": {
"anti_bot": true,,
"等待": ".content-loaded"
}
}示例

注意事项
爬虫程序遵守爬取操作指定的限制 所有内容均以Markdown格式返回
抓取和爬取操作均内置了错误处理机制
无效的JSON配置会被妥善处理
对大型网站进行内存高效处理
支持单页和多页提取
自动元数据处理和过滤
Last updated