nutch TopN 50万 depth 10 获取到6万多数据

我用nutch1.9搜索阿里巴巴的网站，使用的是bin/crawl 脚本执行的，topN设置的50万，爬行深度设置的10，url过滤只允许阿里巴巴的网站，但是实际搜出来的结果却只有6万多，又人知道大概是什么原因吗困扰了好几天了。。。。。求教

网站发现你爬虫，ban了你的请求

这个没很好办法，模拟浏览器，多换IP，降低频率。