抓取其他网站动态数据

项目要求是抓取其他网站的文章信息，包括点击量，回复量等，可这些数据一般都是动态的，如果指定抓取某一个网站的数据我还可以搞定，分析一下js代码或是用firebug类的工具看一下页面生成过程中请求和响应信息等，然后再模拟http请求，解析一下响应基本就搞定了。但是现在要求是随便输个网站，只要有文章、帖子什么的就可以抓下来，这样就不能挨个去分析代码了，这种情况改怎么实现呢？求大神给个思路，实在想不到办法了。
另外负责采集信息的操作人员可以承担一些工作，不一定做成全自动的，比如可以提供待抓取网站的一些信息，但不能太多太复杂。

这个做不到。。除非大家都是discuz等

如果网站是自家写的连人可能都不知道点击量/回复量在哪机器怎么知道还有些可能不显示点击/回复量。不可能这么智能

这个太假了，做不到，除非大家统一协议