爬了一个网站并写入到本地 但浏览器打开却只有几个字 为什么啊
js生成的内容爬虫爬不了,要采集js生成的内容要用webbrowser那种可以解析js的插件来才加才行
打开看看是不是结构有什么变化
用记事本打开,看里面的内容是否爬下来;如果文本信息已经爬下来的情况下,可以通过正则表达式把内容提取出来
打开查看下载下来的内容,是或否有数据,有的话处理下通过正则表达式可以提取出来的。没有数据的话,估计爬的数据有问题了。
代码没有出来,这个很难判断具体是什么问题,你可以先看下html文本中有没有数据,有的话就是显示问题,没有就是没有抓取成功
有些网站有反爬虫机制
如果是完全爬下来的话,有两种情况:
一种是js用的还是网络上的js,然后该js有域名检测机制,判断你为非本地域名,然后返回其他的js文件或者不返回。
一种情况是爬下来的js里面本身就具有域名校验机制,判断为非正常域名则不执行