下载的html在浏览器中展示有问题

爬了一个网站并写入到本地 但浏览器打开却只有几个字 为什么啊

js生成的内容爬虫爬不了,要采集js生成的内容要用webbrowser那种可以解析js的插件来才加才行

打开看看是不是结构有什么变化

用记事本打开,看里面的内容是否爬下来;如果文本信息已经爬下来的情况下,可以通过正则表达式把内容提取出来

打开查看下载下来的内容,是或否有数据,有的话处理下通过正则表达式可以提取出来的。没有数据的话,估计爬的数据有问题了。

代码没有出来,这个很难判断具体是什么问题,你可以先看下html文本中有没有数据,有的话就是显示问题,没有就是没有抓取成功

打开是这样的
部分已下载的html 没问题的 图片说明

有些网站有反爬虫机制

如果是完全爬下来的话,有两种情况:

一种是js用的还是网络上的js,然后该js有域名检测机制,判断你为非本地域名,然后返回其他的js文件或者不返回。

一种情况是爬下来的js里面本身就具有域名校验机制,判断为非正常域名则不执行