我用這兩個做了個簡單的基於google搜索引擎的搜索網頁,可是會出現突然java(也就是爬蟲程序)不能從頁面取得結果的情况,不知道是爲什麽,平時使用的時候都很正常。測試下,就是從網頁解析不到結果。
不知道有沒有人遇到過這個情况。
可能有些网页编码太差,你的java解析不了
爬虫应该对这类情况进行处理一下,以免出现一些问题,比如网页里没有外链,或者死循环吧,比如httpclient获取不到html页面也有可能,比如别GFW屏蔽了 会导致exception。。。
这个非常正常。我之前都有对Google采集过,采集了一段时间,会出现验证码。这个是一年前的事情了。现在直接屏蔽你,也是正常的。你可以换一下网络,或者重新一下路由器,重点是更换IP。不过,这也不是解决问题的办法。
Google比较人性化,它也不想永远失去一个用户的机会吧。如果是封IP段,那么,他失去的不是一个用户,可能是很多用户了。
不能解析又正常可能就是楼上说的,连续访问之后出现验证码之类的。。。。
也有可能是你对它服务器连续访问,它的服务器性能比较烂 不稳定, 现在我用google搜索也是这样,有时有用有时无法访问 不稳定
要不是抓取的太猛,应该不会封你ip的
你可以尝试用代理,自己搞个代理库,里面的代理地址可以到网上爬些下来
:D