我在爬招聘网信息时,点击提取的url是可以看到信息的,但是request爬取到页面源代码却显示需登录获取联系方式,请问这种问题怎么解决呢?
使用session保持会话状态
该回答引用GPTᴼᴾᴱᴺᴬᴵ
这种情况可能是因为网站为了保护用户隐私设置了登录限制。解决这个问题需要模拟登录获取登录凭证,然后在请求中添加登录凭证信息。
具体的解决方案会因网站的登录方式和网站的安全策略而异。一般情况下,可以使用以下方式模拟登录:
分析网站登录方式:登录方式可能是表单登录、OAuth2.0登录、验证码登录等。需要先了解网站的登录方式。
提交登录信息:如果是表单登录,需要使用POST请求将登录信息提交给网站。在请求头中添加需要的Cookie、User-Agent等信息。
处理验证码:如果登录需要验证码,需要使用OCR技术或者手动输入验证码。
登录成功后获取Cookie:登录成功后,网站会返回一个Cookie。需要将这个Cookie添加到后续的请求中。
模拟请求:添加登录凭证信息后,模拟请求即可获取所需信息。
需要注意的是,模拟登录可能会触犯网站的安全策略,不建议在未经授权的情况下进行。同时,在进行爬取时应注意不要过于频繁地请求网站,避免对网站造成不必要的负担。
请求url的时候,把你的cookie带上,把cookie加到headers里面再发送请求