Playwright Web Scraper
Playwright是一个功能强大的浏览器自动化库,可通过单一API控制Chromium、Firefox和WebKit。此模块利用Playwright提供高级网页抓取功能,可从网页中提取内容,包括需要执行JavaScript的动态内容。
此模块提供了一个功能强大的网页抓取工具,能够:
从单个或多个网页加载内容
处理由JavaScript渲染的内容
支持多种页面加载策略
等待特定元素加载
从网站抓取相对链接
处理XML站点地图
输入
URL:要抓取的网页URL
文本分割器(可选):用于处理提取内容的文本分割器
获取相对链接方法(可选):在以下选项中选择:
网络爬虫:从HTML网址中爬取相关链接
抓取XML站点地图:从XML站点地图URL抓取相关链接
获取相对链接限制(可选):要处理的相对链接数量限制(默认值:10,0表示所有链接)
等待至(可选):页面加载策略:
加载:等待加载事件触发
DOM 内容加载完成:等待 DOMContentLoaded 事件
网络空闲:等待500毫秒,确保无网络连接
提交:等待初始网络响应和文档加载
等待选择器加载(可选):在抓取之前等待的CSS选择器
附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象
省略元数据键(可选):以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:来自文档的pageContent的拼接字符串
功能
支持多浏览器引擎(Chromium、Firefox、WebKit)
JavaScript执行支持
可配置的页面加载策略
元素等待能力
网络爬虫功能
XML站点地图处理
无头浏览器操作
沙盒配置
无效URL的错误处理
元数据定制
注意事项
默认情况下以无头模式运行
为兼容性起见,使用无沙盒模式 无效的URL将引发错误
将链接限制设置为0将检索所有可用链接(可能需要更长时间)
支持在提取之前等待特定的DOM元素
抓取一个URL
(可选)连接文本分割器。
输入要抓取的URL。
爬取与抓取多个网址
请参阅**Web Crawl**指南,以实现多页面的抓取。
资源
Last updated