请教各位大神一个问题:用爬虫下载doc文件,页面上的点击a标签即可下载,a标签是
<a id="downitem" href="javascript:;" rel="nofollow">下载</a>
但是经过我观察下载是经过ajax函数控制的,函数如下:
$("#downitem").live("click", function(){
access_ajax_call("down_shiti", '', 'sub_id')});
请问如何用爬虫下载这个doc文档呢?谢谢
用fiddler调试下,找到下载的真实url,然后直接下载。
可以根据urllib返回的页面内容再解析获取文件doc下载路径。然后再urlopen下载