Puppeteer Web Scraper
Puppeteer是一个Node.js库,它提供了一个高级API,可通过DevTools协议控制Chrome/Chromium。此模块使用Puppeteer提供高级网页抓取功能,以从网页中提取内容,包括需要执行JavaScript的动态内容。
此模块提供了一个功能强大的网页抓取工具,能够:
从单个或多个网页加载内容
处理由JavaScript渲染的内容
支持多种页面加载策略
等待特定元素加载
从网站抓取相对链接
处理XML站点地图
输入
URL: 要抓取的网页URL
文本分割器(可选):用于处理提取内容的文本分割器
获取相对链接方法(可选):在以下选项中选择:
网络爬虫:从HTML网址中爬取相关链接
爬取XML站点地图:从XML站点地图URL中爬取相关链接
获取相对链接限制(可选):要处理的相对链接数量限制(默认值:10,0表示所有链接)
等待至(可选):页面加载策略:
加载:当初始HTML文档的DOM加载完成时
DOM 内容加载完成:当 HTML 文档的 DOM 加载完毕时
网络空闲0:500毫秒内无网络连接
网络空闲2:500毫秒内不超过2个网络连接
等待选择器加载(可选):在抓取之前等待加载的CSS选择器
附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象
省略元数据键(可选):以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:从文档的pageContent中拼接而成的字符串
功能
JavaScript执行支持
可配置的页面加载策略
元素等待能力
网络爬虫功能
XML站点地图处理
无头浏览器操作
沙盒配置
无效URL的错误处理
元数据定制
注意事项
默认情况下以无头模式运行
为兼容性起见,使用无沙盒模式
无效的网址将引发错误
将链接限制设置为0将检索所有可用链接(可能需要更长时间)
支持在提取之前等待特定的DOM元素
抓取一个URL
(可选)连接文本分割器。
输入要抓取的网址。
爬取与抓取多个网址
请参阅 Web Crawl 指南,以实现多页面的数据抓取。
输出
将URL内容作为文档加载
资源
Last updated