找到一个html页面下所有日期,天气,计数器代码

项目需要做一个页面分析 页面存在 日期,天气,计数器等html代码 我需要找到这些代码并对这些代码进行过滤再进行分析。
如何在java中通过爬虫爬取的页面中找到这些日期,天气,计数器等html代码。请讲解一些思路!谢谢

简单粗暴地就用jsoup拿正则去匹配那些信息

高大上的就用一些爬虫框架,可以多线程的抓,国内有个可以试试http://git.oschina.net/l-weiwei/spiderman

jsoup
http://www.open-open.com/jsoup/
如果你会用js的话就很好写 就和原声js差不多 获取dom元素 获取id/class/tag等等

用jsoup,写个正则,匹配一下就行啦。