爬虫获得了上百万个url.但是迅雷单次只能添加1000个
有什么办法吗?
好吧 其实爬虫是软件实现的 很多爬虫软件啊
问题解决了 用 wget
自己来下载,不用迅雷。
你都实现爬虫了,那么下载的库也有很多可以用来调用的。
分批下载就是了,每次1000个,也就1000次。
调用库吧。。。。。。。。。。。
java版根据url获取网页数据:
private String getHTML(String url) throws Exception {
URL uri = new URL(url);
URLConnection connection = uri.openConnection();
InputStream in = connection.getInputStream();
byte[] buf = new byte[1024];
int length = 0;
StringBuffer sb = new StringBuffer();
while ((length = in.read(buf, 0, buf.length)) > 0) {
sb.append(new String(buf, ECODING));
}
in.close();
return sb.toString();
}