抓取多个网站的内容,用什么语言,什么框架?

首先,感谢您的回答。

最近要写一个关于对多个网站的信息(新闻),进行抓取工作?

有人有这方面的经验可以谈谈吗?
[b]问题补充:[/b]
主要是多个不同的网站,他们的风格不一样,有没有什么简便的方法,不用每个都去解析!我听说,用模板可以!但是没有用过!
[b]问题补充:[/b]
我以前也用过htmlparse抓数据,但是是抓一个网站的内容,但是现在我要抓几十个网站的内容,不可能每个网站去分析吧?我看您的网站就是抓了很多个网站的新闻,不是吗?可以说说您的思路吗?

这个没有办法,没有网站可以说你不分析它的代码你就能抓到它的内容的,除非这些网站都是一样的。

我曾经也有做过这样的尝试,但是最基本的底线,还是要配置,跟模板的思路很像。我用xml来做配置,这是我做的一个抓取工具,你或许可以看看。

[url]http://code.google.com/p/playfish/[/url]

这个工具在一些用java做抓取的圈里还有点名气,大概也有几千的下载量。呵呵。

PS:上面显示的6万多的下载量是假的,因为有的人用迅雷下载。

哈哈。。。这个东西我做好几个了。有兴趣可以看看我的博客。

抓取方面你可以采用httpclient来获得网站内容,然后html解析就看你个人喜好了,可以使用Jericho,或者htmlparse。如果不喜欢用这些,你直接用正则表达式自己解析都行。

另外一个更强悍的一点的方式,是用htmlunit,不过htmlunit结构比较复杂,不一定适合。正常情况下Jericho是足够了。Jericho目前版本是2.6

[url]
http://playfish.iteye.com/blog/150184[/url]

我的博客上的一篇介绍文章。可以看看

htmlparser这个包可以提取html的各种标签,还不错,用这个看看

所谓的模板方法是用采集器来做的。如果你自己编码实现的话,可以参考如上的解答,如果你只是为了采集新闻,而不是为了编程。。那你可以直接用采集器

国内有名的采集器就属火车头了,你搜索一下火车头采集器,学习一下基本的使用方法就ok了,上手也不难。

  • -! 这个世界上有很多开源的爬虫程序 配置运行之