Cheerio Web Scraper

Cheerio是专门为服务器设计的核心jQuery的快速、灵活且精简的实现。该模块利用Cheerio提供强大的网页抓取功能,以从网页中提取内容。

此模块提供了一个功能强大的网页抓取工具,能够:

  • 从单个或多个网页加载内容

  • 从网站抓取相对链接

  • 使用CSS选择器提取内容

  • 处理XML站点地图

  • 使用文本分割工具处理网页内容

输入

  • URL:要抓取的网页URL

  • 文本分割器(可选):用于处理提取内容的文本分割器

  • 获取相对链接方法(可选):在以下选项中选择:

    • 网络爬虫:从HTML网址中爬取相关链接

    • 爬取XML站点地图:从XML站点地图URL中爬取相关链接

  • 获取相对链接限制(可选):要处理的相对链接数量限制(默认值:10,0表示所有链接)

  • 选择器(CSS)(可选):用于定位特定内容的CSS选择器

  • 附加元数据(可选):包含要添加到文档中的附加元数据的JSON对象

  • 省略元数据键(可选):以逗号分隔的需省略的元数据键列表

输出

  • Document:包含元数据和页面内容的文档对象数组

  • 文本:来自文档的pageContent的拼接字符串

功能

  • 基于CSS选择器的内容提取

  • 网络爬虫功能

  • XML站点地图处理

  • 可配置的链接限制

  • 针对无效URL和PDF的错误处理

  • 元数据定制

  • 调试日志记录支持

注意事项

  • 不支持PDF文件,将跳过此类文件

  • 无效的网址会抛出错误

  • 将链接限制设置为0将检索所有可用链接(可能需要更长时间)

  • 调试模式提供爬取过程的详细日志记录

抓取一个URL

  1. (可选) 连接文本分割器

  2. 输入要抓取的URL。

爬取与抓取多个网址

  1. 在“获取相对链接方法”中选择“Web爬取”或“Scrape XML站点地图”。

  2. 在“获取相对链接限制”中输入“0”,以检索所提供URL中的所有可用链接。

管理链接(可选)

  1. 输入要爬取的URL。

  2. 点击 获取链接,根据 附加参数 中的 获取相对链接方法获取相对链接限制 的输入来检索链接。

  3. 在“已爬网链接”部分,点击“红色垃圾桶图标”以删除不需要的链接。

  4. 最后,点击 保存

输出

将URL内容作为文档加载

资源

Last updated