http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml这个网址下面有好几个子链接网页,有好几页,要求全部抓到。。
简单的页面,可以考虑抓取内容后按照xml进行分析!
参考:http://blog.csdn.net/scythe666/article/details/47337823
看你具体想要什么信息了。