關於htmlparser和httpclinet爬蟲問題

我用這兩個做了個簡單的基於google搜索引擎的搜索網頁，可是會出現突然java（也就是爬蟲程序）不能從頁面取得結果的情况，不知道是爲什麽，平時使用的時候都很正常。測試下，就是從網頁解析不到結果。
不知道有沒有人遇到過這個情况。

可能有些网页编码太差，你的java解析不了
爬虫应该对这类情况进行处理一下，以免出现一些问题，比如网页里没有外链，或者死循环吧，比如httpclient获取不到html页面也有可能，比如别GFW屏蔽了会导致exception。。。

这个非常正常。我之前都有对Google采集过，采集了一段时间，会出现验证码。这个是一年前的事情了。现在直接屏蔽你，也是正常的。你可以换一下网络，或者重新一下路由器，重点是更换IP。不过，这也不是解决问题的办法。

Google比较人性化，它也不想永远失去一个用户的机会吧。如果是封IP段，那么，他失去的不是一个用户，可能是很多用户了。

不能解析又正常可能就是楼上说的，连续访问之后出现验证码之类的。。。。

也有可能是你对它服务器连续访问，它的服务器性能比较烂不稳定，现在我用google搜索也是这样，有时有用有时无法访问不稳定

要不是抓取的太猛，应该不会封你ip的

你可以尝试用代理，自己搞个代理库，里面的代理地址可以到网上爬些下来
:D