Puppeteer Web Scraper

Puppeteer是一个Node.js库，它提供了一个高级API，可通过DevTools协议控制Chrome/Chromium。此模块使用Puppeteer提供高级网页抓取功能，以从网页中提取内容，包括需要执行JavaScript的动态内容。

此模块提供了一个功能强大的网页抓取工具，能够：

输入

URL: 要抓取的网页URL
文本分割器（可选）：用于处理提取内容的文本分割器
获取相对链接方法（可选）：在以下选项中选择：
- 网络爬虫：从HTML网址中爬取相关链接
- 爬取XML站点地图：从XML站点地图URL中爬取相关链接
获取相对链接限制（可选）：要处理的相对链接数量限制（默认值：10，0表示所有链接）
等待至（可选）：页面加载策略：
- 加载：当初始HTML文档的DOM加载完成时
- DOM 内容加载完成：当 HTML 文档的 DOM 加载完毕时
- 网络空闲0：500毫秒内无网络连接
- 网络空闲2：500毫秒内不超过2个网络连接
等待选择器加载（可选）：在抓取之前等待加载的CSS选择器
附加元数据（可选）：包含要添加到文档中的附加元数据的JSON对象
省略元数据键（可选）：以逗号分隔的需省略的元数据键列表

请参阅 Web Crawl 指南，以实现多页面的数据抓取。

将URL内容作为文档加载

Last updated 6 days ago