利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向
利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行。特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据。
可以使用httpclient来爬取
如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章。这个不同的网站是不同的。
虽然理论上可以通过Last-Modifed获得时间,但是很少有web服务器用它。
java自带的类HttpURLConnection可以模拟浏览器抓起请求网站的内容,拿到内容后就可以对其html源文件进行分析。
可以用htmlparser进行解析你需要的数据。