开发了自己的小工具,依据sci-hub平台批量下载文献,大部分文章都能顺利下载。有个别文章下载异常。程序分两步:1、用DOI号进行一次request请求,得到下载链接dl_url;2、根据下载链接dl_url发送request请求,得到pdf文章的内容content,随后二进制写入文档。
程序下载的结果如图:
为一个空白文件,后缀改为.pdf打开,也是异常。
```python
DOI = '10.1617/s11527-007-9226-0'
mingzi = 'Textile reinforced mortar (TRM) versus FRP as strengthening material of URM walls: out-of-plane cyclic loading'
mulu = r"C:\Users\C\Desktop"
headers = {
'user-agent': '浏览器user-agent',
'cookie':'浏览器cookie'
}
url = 'https://sci-hub.st/'
zong_url = url + DOI
r = requests.get(zong_url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
weizhui = html.find('button')['onclick'][14:].replace('\'', '')
if 'sci-hub.st' in weizhui:
dl_url = 'https:' + weizhui
else:
dl_url = 'https://sci-hub.st' + weizhui
#这一步得到的dl_url在浏览器中输入可以正常下载,但是代码中下载异常
#这一步得到的dl_url为:https://moscow.sci-hub.st/1136/953c6f7d5defb1c69b86a69b2f0499d9/papanicolaou2007.pdf?download=true
#存入文档
myfile = requests.get(dl_url, headers=headers)
dizhi = mulu + r"\{}.pdf".format(mingzi)
with open(dizhi, 'wb') as f:
f.write(myfile.content)
感谢两位。我刚刚分析了一下所有下载异常的文件,名字中都有冒号:,replace替换后现在可以下载了。
把每个文章的下载地址先打印出来,单独访问下载失败的文章的下载地址,看这些文章与其他文章有啥不一样
可能的原因是requests库默认使用HTTP/1.1协议来进行请求,而在HTTP/1.1下,在请求完成之前,该连接会一直保持打开状态,可能对于一些网站来说,持久连接时间过长,导致下载失败,需要手动关闭该链接。可以尝试使用以下代码:
myfile = requests.get(dl_url, headers=headers, stream=True)
with open(dizhi, 'wb') as f:
for chunk in myfile.iter_content(chunk_size=1024*1024):
if chunk:
f.write(chunk)
myfile.close()
这里使用了stream=True
来开启流模式,避免一次性将内容全部读入内存中,同时使用iter_content
来逐块读取内容并写入文件中,防止某些文件较大导致内存占用过大。在下载完成后手动关闭myfile
连接。