参考了平台上的一些代码,想要用python将https://www.csindex.com.cn/#/about/newsDetail?id=14330%E9%87%8C4%E4%B8%AApdf%E5%92%8C4%E4%B8%AAexcel%E4%B8%8B%E8%BD%BD%E4%B8%8B%E6%9D%A5~%E3%80%82
但是发现r.text里始终没有pdf和excel的链接。
import re
import requests
count = 0
r = requests.get('https://www.csindex.com.cn/#/about/newsDetail?id=14330')
data = r.text
link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')\\b",data)
for url in link_list:
count += 1
print(url)
try:
if 'http' in url:
r = requests.get(url)
else:
r = requests.get("https:" + url)
except:
pass
with open("name" + str(count) + '.' + url.split('.')[-1], 'wb') as f:
f.write(r.content)
因为 pdf 和 excel 数据都是通过 ajax 动态加载的,抓包找到正确的请求就好了:
这些数据是通过这个url传过来了