scraping网站

2g32fytz 于 2021-07-06 发布在 Java

关注(0)|答案(0)|浏览(177)

public void conectUrl() throws IOException, InterruptedException {
        product= new ArrayList<>();

        String url = "https://www.continente.pt/stores/continente/pt-pt/public/pages/category.aspx?cat=campanhas#/?page=1&sf=Revelance";

         page = Jsoup.connect(url).userAgent("JSoup scraper").get();

        //get actual page

        Elements paginaAtu=page.getElementsByClass("_actualPage");
        paginaAtual=Integer.parseInt(paginaAtu.attr("value"));

        //get Total Pages
        Elements nextPage=page.getElementsByClass("_actualTotalPages");
        numPaginas =Integer.parseInt(nextPage.attr("value"));

        for(paginaAtual=1;paginaAtual<numPaginas;paginaAtual++) {
            getProductInfo("https://www.continente.pt/stores/continente/pt-pt/public/pages/category.aspx?cat=campanhas#/?page="+paginaAtual+"&sf=Revelance");

        }
    }

总是用不同的url返回相同的结果。我已经搜索了jsoup缓存，我不是第一个问这个问题的人，但是没有人说如何解决这个问题。理论上，jsoup不会缓存url页面。。。
我已经做了代码“睡眠”在30秒内加载新的网址，但仍然不工作，返回总是相同的结果。
有人能帮我吗？先谢谢你。

Java Caching URL Jsoup

来源：https://stackoverflow.com/questions/63530676/jsoup-in-java-return-always-the-same-page-with-different-url-scraping-website