jsoup如何对整个网站进行解析

jsoup如何解析只给出网站首页的url,例如www.baidu.com?提取出主要内容,存放到数据库中。

这个比较难,因为网站的子域名都是不确定的

没有什么固定的算法去找

像google,baidu的爬虫也是通过一个网页内的所有链接找到下一个页面

再从下一个页面里的链接再往链条上爬,

如果一个孤立的地址,没有任何页面的引用 ,也没有告诉爬虫怎么走,是永远也找不到的

不过一般的网站都会提供一个自己的网站地图,里面放着该网站的所有相关链接

你可以解析该链接找到所有相关的子页面

[code="java"]Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");[/code]

[code="java"]
提取主要内容?
Document doc = Jsoup.connect("http://baidu.com/")
.data("query", "Java") // 请求参数
.userAgent("I ’ m jsoup") // 设置 User-Agent
.cookie("auth", "token") // 设置 cookie
.timeout(3000) // 设置连接超时时间
.post(); // 使用 POST 方法访问 URL

Element content = doc.getElementById("content");
[/code]