爬虫

为什么网站加个UA后可以爬取,但是几次之后就偶尔可以拿到页面啊,然后模拟登入的cookie是选择登入后页面的cookie么

记住一个核心就好了:你把自己伪装的越像一个人在使用浏览器上网,反爬对你越不起作用。

UA 是常见的方法 目的是把自己的Python程序伪装成浏览器,cookie应该是权限问题

换句话说 一般需要cookie的页面 直接使用浏览器打开 也不会有内容 还是得登录

你不要总是想破解网站的反爬机制,你应该想的是怎样使自己的程序看起来像是一个人在使用浏览器上网。

1、user-agent只是最简单常见的反爬手段。

2、(普通cookie也可以使用,但没有登录后的用户权限啊,不然为什么要登录)登录后肯定是使用登录的cookie才能操作需要用户权限的部分

常见反爬介绍https://juejin.im/post/6844903955567230983

cookie仅仅是检测是否有权限查看数据的么

1、cookie是浏览器标识的一部分,反爬的策略有一个就是验证cookie

2、你浏览器打开网页都会有cookie啊,普通cookie,header带上伪装成浏览器(应对1的反 反爬策略)

3、登录后的cookie,python带上登录后的cookie,就相当于伪装成是在浏览器登录了网站的状态,

cookie详解https://zhuanlan.zhihu.com/p/74202967

4、比如知乎,登录以后copy出来的cookie是带有用户身份信息标识的,

(普通cookie的话就是游客身份,登录后的就是已注册用户身份)

python内带上登录后的cookie进行的操作就是 用户操作

对于需要登录的网站,带的普通cookie 只能进行游客身份操作

加我QQ3461896724我帮你看看

用sesson好了


登录后的cookie有时会存放用户信息,也就是session

UA就是简单的浏览器辨识,网站根据这个可以判断你是否是爬虫,cookies的话一般携带你的浏览器的信息,一般情况是你的用户信息,也就是你登录完的cookie,里面包含了你的用户信息,省的你再次登陆账号了同时也告诉网站是我在访问不是机器,当你用cookie去做爬虫时对大部分的网站来说你就是真人在看数据,模拟登陆前的cookie在大多数情况下是没什么用,