jsoup如何对整个网站进行解析

jsoup如何解析只给出网站首页的url，例如www.baidu.com？提取出主要内容，存放到数据库中。

这个比较难，因为网站的子域名都是不确定的

没有什么固定的算法去找

像google，baidu的爬虫也是通过一个网页内的所有链接找到下一个页面

再从下一个页面里的链接再往链条上爬，

如果一个孤立的地址，没有任何页面的引用，也没有告诉爬虫怎么走，是永远也找不到的

不过一般的网站都会提供一个自己的网站地图，里面放着该网站的所有相关链接

你可以解析该链接找到所有相关的子页面

[code="java"]Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");[/code]

[code="java"]
提取主要内容？
Document doc = Jsoup.connect("http://baidu.com/")
.data("query", "Java") // 请求参数
.userAgent("I ’ m jsoup") // 设置 User-Agent
.cookie("auth", "token") // 设置 cookie
.timeout(3000) // 设置连接超时时间
.post(); // 使用 POST 方法访问 URL

Element content = doc.getElementById("content");
[/code]