Apify Website Content Crawler

Apify 网站内容爬虫是一款功能强大的网络爬取工具,能够利用多种爬虫引擎从网站中提取内容。此模块提供了与Apify网站内容爬虫的集成,用于加载和处理网络内容。
此模块提供了一个功能强大的网络爬虫,该爬虫能够:
从指定的起始URL爬取多个网站
使用不同的爬虫引擎(Chrome、Firefox、Cheerio、JSDOM)
控制爬取深度和页面限制
处理由JavaScript渲染的内容
使用文本分割工具处理提取的内容
自定义元数据提取
输入
必填参数
起始URLs:以逗号分隔的URL列表,爬虫将从这些URL开始爬取
连接Apify API:Apify API凭据
爬虫类型:爬虫引擎选择:
无头网页浏览器(Chrome+Playwright)
隐身网络浏览器(Firefox+Playwright)
原始HTTP客户端(Cheerio)
带有JavaScript执行功能的原始HTTP客户端(JSDOM)
可选参数
文本分割器:用于处理提取内容的文本分割器
最大爬取深度:可跟踪页面链接的最大深度(默认值:1)
最大爬取页面数:可爬取的最大页面数(默认值:3)
附加输入:包含额外爬虫配置的JSON对象
附加元数据:包含附加元数据的JSON对象
省略元数据键:以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
支持多种爬虫引擎
可配置的爬取参数
JavaScript渲染支持
深度和页数限制控制
元数据定制
文本分割功能
错误处理
爬虫类型
无头Chrome(Playwright)
最适合现代网络应用程序
完全支持JavaScript
资源使用率更高
隐身模式下的Firefox(Playwright)
适用于具有机器人检测功能的网站
完全支持JavaScript
操作更加隐秘
Cheerio
快速且轻便
不支持JavaScript
资源使用率更低
JSDOM(实验性)
JavaScript执行支持
浏览器的轻量级替代方案
实验性功能
注释
需要有效的Apify API令牌
不同的爬虫类型具有不同的功能
资源使用情况因爬虫类型而异
JavaScript支持取决于爬虫类型
根据Apify计划,可能会进行速率限制
可通过JSON输入进行额外配置
爬取整个网站
(可选) 连接文本分割器。
连接Apify API(使用您的Apify API令牌创建一个新凭证)。
输入一个或多个爬虫将从中开始的URL(以逗号分隔),例如
https://docs.flowiseai.com/。选择爬虫类型。更多信息请参阅网站内容爬虫文档。
(可选) 指定其他参数,如最大爬取深度和要爬取的最大页面数。
输出
将网站内容作为文档加载。
资源
Last updated