利用crawler4j做网络爬虫如何抓取特定标题和发表时间

利用crawler4j做网络爬虫如何抓取特定标题和发表时间，地区等，还有什么值得推荐的爬虫工具（java）方向

利用crawler4j做网络爬虫，你能抓取到数据的话，然后分析数据就行。特定的标题和发表时间，应该有特定的标识的，检查此标识然后取得想要的数据。

可以使用httpclient来爬取

如果服务器支持rss，那么可以直接从中过滤，不支持rss，就只能先抓取标题和时间字段，然后再下载文章。这个不同的网站是不同的。
虽然理论上可以通过Last-Modifed获得时间，但是很少有web服务器用它。

java自带的类HttpURLConnection可以模拟浏览器抓起请求网站的内容，拿到内容后就可以对其html源文件进行分析。
可以用htmlparser进行解析你需要的数据。