网站备案和服务器备案,企业cms免费模板,国家新闻出版,wordpress注册免邮件如果对htmlunit还不了解的话可以参考Java#xff1a;爬虫htmlunit-CSDN博客
了解了htmlunit之后#xff0c;我们再来学习如何在页面中抓取我们想要的数据#xff0c;我们在学习初期可以找一些结构比较清晰的网站来做测试爬取#xff0c;首先我们随意找个网站如下#xff…如果对htmlunit还不了解的话可以参考Java爬虫htmlunit-CSDN博客
了解了htmlunit之后我们再来学习如何在页面中抓取我们想要的数据我们在学习初期可以找一些结构比较清晰的网站来做测试爬取首先我们随意找个网站如下 当我们打开网站F12进入开发者模式我们在学习之前我们需要知道我们要爬取什么数据了解数据和页面的结构。就拿这个网站来说我们如果要爬取它的数据首先需要获取他们的类别在获取类别下的数据。那我们在点击类别的时候需要分析下地址有没有变化如果变化了我们需要拿到指定类别的地址然后和域名拼接成完整地址抓取其类目下的数据。 为什么要拼接呢因为在网站类目使用的跳转会自动加上站点地址我们在爬取的时候是没有该网站域名的。 这个列子非常简单我们直接要获取它的类别跳转的地址再根据爬取的地址爬取其详情数据
分析下来我们只要抓取该页面的a标签即可。这个在 htmlunit 中提供了 HtmlAnchor 直接可以获取所有的a标签代码如下
/*** bFunction: /b todo** program: 根据页面信息获取子页面信息* Package: com.kingbal.king.dmp* author: dingcho* date: 2024/06/13* version: 1.0* Copyright: 2024 www.kingbal.com Inc. All rights reserved.*/
Slf4j
public class BaseTest {public static void main(String[] args) throws Exception {HtmlPage page SpiderUtils.crawlPageWithoutAnalyseJs(https://www.yiyiwiy.com/);//System.err.println(page);ListHtmlAnchor htmlAnchorList page.getAnchors();log.info(htmlAnchorList.size() htmlAnchorList.size());log.info(********************);htmlAnchorList.forEach(f - {if(f.getHrefAttribute().contains(vodtypehtml)){log.info(f.getHrefAttribute());}});log.info(********************);}}我们抓取的是所有页面的a标签所以我们需要过滤掉我们不需要的地址
if(f.getHrefAttribute().contains(vodtypehtml)){log.info(f.getHrefAttribute());
}
然后执行代码就可以获取到对应数据