项目要求是抓取其他网站的文章信息,包括点击量,回复量等,可这些数据一般都是动态的,如果指定抓取某一个网站的数据我还可以搞定,分析一下js代码或是用firebug类的工具看一下页面生成过程中请求和响应信息等,然后再模拟http请求,解析一下响应基本就搞定了。 但是现在要求是随便输个网站 ,只要有文章 、帖子什么的就可以抓下来,这样就不能挨个去分析代码了,这种情况改怎么实现呢?求大神给个思路,实在想不到办法了。
另外负责采集信息的操作人员可以承担一些工作,不一定做成全自动的,比如可以提供待抓取网站的一些信息,但不能太多太复杂。
这个做不到。。 除非大家都是discuz等
如果网站是自家写的 连人可能都不知道点击量/回复量在哪 机器怎么知道 还有些可能不显示点击/回复量。 不可能这么智能
这个太假了,做不到,除非大家统一协议