我爱占星网 我爱占星网
首页
编程
java
php
前端
首页 编程 java php 前端

nutch TopN 50万 depth 10 获取到6万多数据

我用nutch1.9搜索阿里巴巴的网站,使用的是bin/crawl 脚本执行的,topN设置的50万,爬行深度设置的10,url过滤只允许阿里巴巴的网站,但是实际搜出来的结果却只有6万多,又人知道大概是什么原因吗困扰了好几天了。。。。。求教

网站发现你爬虫,ban了你的请求

这个没很好办法,模拟浏览器,多换IP,降低频率。

近期文章

  • “alert(‘已更新’)”不要的话,修改的内容却都没有修改
  • win8--中文乱码问题,例如UE中搜索时,中文会被‘??’代替
  • 生产设备数据分级预警短信平台
  • GridView绑定数据时控件有警告
  • java实现文件重命名求助
  • 大神看看我这个json 对应的Javabean拿错了
  • asp怎么连接数据库,怎么读出数据库的字段
  • JS调用为何在IE7下无效呢 IE6和8都正常
  • SQL批量修改日期,但是不修改时间
  • WIN 8 应用程序闪退?
  • vs2012性能测试函数代码视图无法显示
  • 用shell脚本读取Hadoop集群上的文件
  • spring jdbcTemplate怎么得到新插入数据的主键(varchar2类型)
  • 一个python学习中的问题
  • 关于delphi编写的程序在某些操作系统上运行出错的问题
  • oracle 索引 求大神!!!
  • “网络广告”的名词解释是什么?
  • 客户端调用web service服务异常
  • directplay问题,在windows server 2008安装了360安全卫士
  • 有关MySql数据库的问题

Copyright ©2022 我爱占星 All Rights Reserved.

浙ICP备2022030071号-1

部分图文来自网络,如有侵犯您的版权,请告诉我们删除

友情链接:代码精华