求 htmlunit + jsoup 获取网页信息实例

求 htmlunit + jsoup 获取网页信息实例 包括htnlunit获取js里的内容

该回复引自免费微信小程序-皆我百晓生:


下面是一个使用HtmlUnit和Jsoup获取网页信息的示例:

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlUnitJsoupExample {
    public static void main(String[] args) {
        try (WebClient webClient = new WebClient()) {
            // 启用JavaScript
            webClient.getOptions().setJavaScriptEnabled(true);

            // 获取网页内容
            HtmlPage page = webClient.getPage("http://example.com");

            // 将HtmlPage转换为Jsoup的Document对象
            Document doc = Jsoup.parse(page.asXml());

            // 使用Jsoup提取网页信息
            Element titleElement = doc.selectFirst("title");
            String title = titleElement.text();
            System.out.println("Title: " + title);

            Elements links = doc.select("a[href]");
            for (Element link : links) {
                String href = link.attr("href");
                String text = link.text();
                System.out.println("Link: " + text + " (" + href + ")");
            }

            // 使用HtmlUnit执行JavaScript并获取结果
            String jsCode = "document.getElementById('elementId').innerHTML";
            Object result = page.executeJavaScript(jsCode).getJavaScriptResult();
            System.out.println("JavaScript Result: " + result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述示例中,首先创建一个WebClient对象,并启用JavaScript。然后使用WebClient的getPage方法获取网页内容,并将HtmlPage对象转换为Jsoup的Document对象。接下来,可以使用Jsoup提供的方法来提取网页信息,例如获取标题和链接。最后,可以使用HtmlUnit的executeJavaScript方法执行JavaScript代码,并获取执行结果。

请注意,你需要将HtmlUnit和Jsoup的相关库添加到项目的依赖中。