纯新手,想试着爬一下一个简单列表,结果确返回这些东西,这是啥情况啊?
import requests
import re
from lxml import etree
header = {
'User Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36',
'Cache-Control': 'No-Cache'
}
url = 'https://www.coinbase.com/price/s/listed'
resp = requests.get(url, headers=header)
print(resp.text)
<title>Attention Required! | Cloudflare</title>
<meta name="captcha-bypass" id="captcha-bypass" />
<meta charset="UTF-8" />
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=1" />
应该是做了反爬虫:
说明你访问的网站用了CloudFlare提供的CDN服务,并且此站点开启了防CC攻击功能,CloudFlare把你当做攻击者,只有输入了验证码才能正常访问目标网站。
如果发现所查询的IP有发送垃圾邮件或字典攻击等行为,请联系该IP的服务器管理员或运营商来解决问题。
若恶意活动不在发生,Project Honey Pot网站称90天后自动将IP加入白名单。(从本人实际使用过程中,发现这个时间可能提前,大概在30天~45天左右)。
确认恶意行为或误报,并彻底解决服务器隐患后,可在Project Honey Pot提交IP白名单申请(必须使用该IP访问Project Honey Pot时才会出现IP白名单申请选项)。
如果申请IP白名单后,IP再次出现恶意行为,会影响再次申请的通过成功率