我用nutch1.9搜索阿里巴巴的网站,使用的是bin/crawl 脚本执行的,topN设置的50万,爬行深度设置的10,url过滤只允许阿里巴巴的网站,但是实际搜出来的结果却只有6万多,又人知道大概是什么原因吗困扰了好几天了。。。。。求教
网站发现你爬虫,ban了你的请求
这个没很好办法,模拟浏览器,多换IP,降低频率。