Cheerio Web Scraper
Cheerio是专门为服务器设计的核心jQuery的快速、灵活且精简的实现。该模块利用Cheerio提供强大的网页抓取功能,以从网页中提取内容。
此模块提供了一个功能强大的网页抓取工具,能够:
从单个或多个网页加载内容
从网站抓取相对链接
使用CSS选择器提取内容
处理XML站点地图
使用文本分割工具处理网页内容
输入
URL:要抓取的网页URL
文本分割器(可选):用于处理提取内容的文本分割器
获取相对链接方法(可选):在以下选项中选择:
网络爬虫:从HTML网址中爬取相关链接
爬取XML站点地图:从XML站点地图URL中爬取相关链接
获取相对链接限制(可选):要处理的相对链接数量限制(默认值:10,0表示所有链接)
选择器(CSS)(可选):用于定位特定内容的CSS选择器
附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象
省略元数据键(可选):以逗号分隔的需省略的元数据键列表
输出
Document:包含元数据和页面内容的文档对象数组
文本:来自文档的pageContent的拼接字符串
功能
基于CSS选择器的内容提取
网络爬虫功能
XML站点地图处理
可配置的链接限制
针对无效URL和PDF的错误处理
元数据定制
调试日志记录支持
注意事项
不支持PDF文件,将跳过此类文件
无效的网址会抛出错误
将链接限制设置为0将检索所有可用链接(可能需要更长时间)
调试模式提供爬取过程的详细日志记录
抓取一个URL
(可选) 连接文本分割器。
输入要抓取的URL。
爬取与抓取多个网址
在“获取相对链接方法”中选择“Web爬取”或“Scrape XML站点地图”。
在“获取相对链接限制”中输入“0”,以检索所提供URL中的所有可用链接。

管理链接(可选)
输入要爬取的URL。
点击 获取链接,根据 附加参数 中的 获取相对链接方法 和 获取相对链接限制 的输入来检索链接。
在“已爬网链接”部分,点击“红色垃圾桶图标”以删除不需要的链接。
最后,点击 保存。

输出
将URL内容作为文档加载
资源
Last updated