Apify Website Content Crawler

Apify网站内容爬虫节点

Apify 网站内容爬虫是一款功能强大的网络爬取工具,能够利用多种爬虫引擎从网站中提取内容。此模块提供了与Apify网站内容爬虫的集成,用于加载和处理网络内容。

此模块提供了一个功能强大的网络爬虫,该爬虫能够:

  • 从指定的起始URL爬取多个网站

  • 使用不同的爬虫引擎(Chrome、Firefox、Cheerio、JSDOM)

  • 控制爬取深度和页面限制

  • 处理由JavaScript渲染的内容

  • 使用文本分割工具处理提取的内容

  • 自定义元数据提取

输入

必填参数

  • 起始URLs:以逗号分隔的URL列表,爬虫将从这些URL开始爬取

  • 连接Apify API:Apify API凭据

  • 爬虫类型:爬虫引擎选择:

    • 无头网页浏览器(Chrome+Playwright)

    • 隐身网络浏览器(Firefox+Playwright)

    • 原始HTTP客户端(Cheerio)

    • 带有JavaScript执行功能的原始HTTP客户端(JSDOM)

可选参数

  • 文本分割器:用于处理提取内容的文本分割器

  • 最大爬取深度:可跟踪页面链接的最大深度(默认值:1)

  • 最大爬取页面数:可爬取的最大页面数(默认值:3)

  • 附加输入:包含额外爬虫配置的JSON对象

  • 附加元数据:包含附加元数据的JSON对象

  • 省略元数据键:以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:从文档的pageContent中拼接而成的字符串

功能

  • 支持多种爬虫引擎

  • 可配置的爬取参数

  • JavaScript渲染支持

  • 深度和页数限制控制

  • 元数据定制

  • 文本分割功能

  • 错误处理

爬虫类型

无头Chrome(Playwright)

  • 最适合现代网络应用程序

  • 完全支持JavaScript

  • 资源使用率更高

隐身模式下的Firefox(Playwright)

  • 适用于具有机器人检测功能的网站

  • 完全支持JavaScript

  • 操作更加隐秘

Cheerio

  • 快速且轻便

  • 不支持JavaScript

  • 资源使用率更低

JSDOM(实验性)

  • JavaScript执行支持

  • 浏览器的轻量级替代方案

  • 实验性功能

注释

  • 需要有效的Apify API令牌

  • 不同的爬虫类型具有不同的功能

  • 资源使用情况因爬虫类型而异

  • JavaScript支持取决于爬虫类型

  • 根据Apify计划,可能会进行速率限制

  • 可通过JSON输入进行额外配置

爬取整个网站

  1. (可选) 连接文本分割器

  2. 连接Apify API(使用您的Apify API令牌创建一个新凭证)。

  3. 输入一个或多个爬虫将从中开始的URL(以逗号分隔),例如https://docs.flowiseai.com/

  4. 选择爬虫类型。更多信息请参阅网站内容爬虫文档

  5. (可选) 指定其他参数,如最大爬取深度和要爬取的最大页面数。

输出

将网站内容作为文档加载。

资源

Last updated