图一 起点页面显示为
图二为 查看源代码出现的html实体
图三为程序中获取到输出的内容
代码如下:
public static void main(String[] args) throws IOException, DataFormatException {
Document jsoup = Jsoup.parse(new URL("https://book.qidian.com/info/1013414929"),999999);
Elements bookinfo = jsoup.select(".book-info p em span");
String webclass = null;
for(int i = 0,len = bookinfo.size();i<len;i++) {
webclass = bookinfo.get(i).attr("class");
System.out.println(bookinfo.get(i));
}
}
JSoup获取html源码获取的只是初始的网页代码
但是网页里有ajax脚本,在执行过程中可以动态加载一些内容,这个获取不到。
你需要做的是,用浏览器f12的抓包功能看它异步加载了什么数据,然后照着去请求这些地址,获得加载的数据。