Playwright Web Scraper

Playwright是一个功能强大的浏览器自动化库，可通过单一API控制Chromium、Firefox和WebKit。此模块利用Playwright提供高级网页抓取功能，可从网页中提取内容，包括需要执行JavaScript的动态内容。

此模块提供了一个功能强大的网页抓取工具，能够：

输入

URL：要抓取的网页URL
文本分割器（可选）：用于处理提取内容的文本分割器
获取相对链接方法（可选）：在以下选项中选择：
- 网络爬虫：从HTML网址中爬取相关链接
- 抓取XML站点地图：从XML站点地图URL抓取相关链接
获取相对链接限制（可选）：要处理的相对链接数量限制（默认值：10，0表示所有链接）
等待至（可选）：页面加载策略：
- 加载：等待加载事件触发
- DOM 内容加载完成：等待 DOMContentLoaded 事件
- 网络空闲：等待500毫秒，确保无网络连接
- 提交：等待初始网络响应和文档加载
等待选择器加载（可选）：在抓取之前等待的CSS选择器
附加元数据（可选）：包含要添加到文档中的附加元数据的JSON对象
省略元数据键（可选）：以逗号分隔的需省略的元数据键列表

请参阅**Web Crawl**指南，以实现多页面的抓取。

Last updated 6 days ago