求 htmlunit + jsoup 获取网页信息实例 包括htnlunit获取js里的内容
该回复引自免费微信小程序-皆我百晓生:
下面是一个使用HtmlUnit和Jsoup获取网页信息的示例:
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class HtmlUnitJsoupExample {
public static void main(String[] args) {
try (WebClient webClient = new WebClient()) {
// 启用JavaScript
webClient.getOptions().setJavaScriptEnabled(true);
// 获取网页内容
HtmlPage page = webClient.getPage("http://example.com");
// 将HtmlPage转换为Jsoup的Document对象
Document doc = Jsoup.parse(page.asXml());
// 使用Jsoup提取网页信息
Element titleElement = doc.selectFirst("title");
String title = titleElement.text();
System.out.println("Title: " + title);
Elements links = doc.select("a[href]");
for (Element link : links) {
String href = link.attr("href");
String text = link.text();
System.out.println("Link: " + text + " (" + href + ")");
}
// 使用HtmlUnit执行JavaScript并获取结果
String jsCode = "document.getElementById('elementId').innerHTML";
Object result = page.executeJavaScript(jsCode).getJavaScriptResult();
System.out.println("JavaScript Result: " + result);
} catch (Exception e) {
e.printStackTrace();
}
}
}
上述示例中,首先创建一个WebClient对象,并启用JavaScript。然后使用WebClient的getPage方法获取网页内容,并将HtmlPage对象转换为Jsoup的Document对象。接下来,可以使用Jsoup提供的方法来提取网页信息,例如获取标题和链接。最后,可以使用HtmlUnit的executeJavaScript方法执行JavaScript代码,并获取执行结果。
请注意,你需要将HtmlUnit和Jsoup的相关库添加到项目的依赖中。