抓取多个网站的内容，用什么语言，什么框架?

首先，感谢您的回答。

最近要写一个关于对多个网站的信息（新闻），进行抓取工作？

有人有这方面的经验可以谈谈吗？
[b]问题补充：[/b]
主要是多个不同的网站，他们的风格不一样，有没有什么简便的方法，不用每个都去解析！我听说，用模板可以！但是没有用过！
[b]问题补充：[/b]
我以前也用过htmlparse抓数据，但是是抓一个网站的内容，但是现在我要抓几十个网站的内容，不可能每个网站去分析吧？我看您的网站就是抓了很多个网站的新闻，不是吗？可以说说您的思路吗？

这个没有办法，没有网站可以说你不分析它的代码你就能抓到它的内容的，除非这些网站都是一样的。

我曾经也有做过这样的尝试，但是最基本的底线，还是要配置，跟模板的思路很像。我用xml来做配置，这是我做的一个抓取工具，你或许可以看看。

[url]http://code.google.com/p/playfish/[/url]

这个工具在一些用java做抓取的圈里还有点名气，大概也有几千的下载量。呵呵。

PS：上面显示的6万多的下载量是假的，因为有的人用迅雷下载。

哈哈。。。这个东西我做好几个了。有兴趣可以看看我的博客。

抓取方面你可以采用httpclient来获得网站内容，然后html解析就看你个人喜好了，可以使用Jericho，或者htmlparse。如果不喜欢用这些，你直接用正则表达式自己解析都行。

另外一个更强悍的一点的方式，是用htmlunit，不过htmlunit结构比较复杂，不一定适合。正常情况下Jericho是足够了。Jericho目前版本是2.6

[url]
http://playfish.iteye.com/blog/150184[/url]

我的博客上的一篇介绍文章。可以看看

htmlparser这个包可以提取html的各种标签，还不错，用这个看看

所谓的模板方法是用采集器来做的。如果你自己编码实现的话，可以参考如上的解答，如果你只是为了采集新闻，而不是为了编程。。那你可以直接用采集器

国内有名的采集器就属火车头了，你搜索一下火车头采集器，学习一下基本的使用方法就ok了，上手也不难。

-! 这个世界上有很多开源的爬虫程序配置运行之