Playwright Web Scraper

Playwright是一个功能强大的浏览器自动化库,可通过单一API控制Chromium、Firefox和WebKit。此模块利用Playwright提供高级网页抓取功能,可从网页中提取内容,包括需要执行JavaScript的动态内容。

此模块提供了一个功能强大的网页抓取工具,能够:

  • 从单个或多个网页加载内容

  • 处理由JavaScript渲染的内容

  • 支持多种页面加载策略

  • 等待特定元素加载

  • 从网站抓取相对链接

  • 处理XML站点地图

输入

  • URL:要抓取的网页URL

  • 文本分割器(可选):用于处理提取内容的文本分割器

  • 获取相对链接方法(可选):在以下选项中选择:

    • 网络爬虫:从HTML网址中爬取相关链接

    • 抓取XML站点地图:从XML站点地图URL抓取相关链接

  • 获取相对链接限制(可选):要处理的相对链接数量限制(默认值:10,0表示所有链接)

  • 等待至(可选):页面加载策略:

    • 加载:等待加载事件触发

    • DOM 内容加载完成:等待 DOMContentLoaded 事件

    • 网络空闲:等待500毫秒,确保无网络连接

    • 提交:等待初始网络响应和文档加载

  • 等待选择器加载(可选):在抓取之前等待的CSS选择器

  • 附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象

  • 省略元数据键(可选):以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:来自文档的pageContent的拼接字符串

功能

  • 支持多浏览器引擎(Chromium、Firefox、WebKit)

  • JavaScript执行支持

  • 可配置的页面加载策略

  • 元素等待能力

  • 网络爬虫功能

  • XML站点地图处理

  • 无头浏览器操作

  • 沙盒配置

  • 无效URL的错误处理

  • 元数据定制

注意事项

  • 默认情况下以无头模式运行

  • 为兼容性起见,使用无沙盒模式 无效的URL将引发错误

  • 将链接限制设置为0将检索所有可用链接(可能需要更长时间)

  • 支持在提取之前等待特定的DOM元素

抓取一个URL

  1. (可选)连接文本分割器

  2. 输入要抓取的URL。

爬取与抓取多个网址

请参阅**Web Crawl**指南,以实现多页面的抓取。

资源

Last updated