python爬虫下载PDF失败

开发了自己的小工具，依据sci-hub平台批量下载文献，大部分文章都能顺利下载。有个别文章下载异常。程序分两步：1、用DOI号进行一次request请求，得到下载链接dl_url；2、根据下载链接dl_url发送request请求，得到pdf文章的内容content，随后二进制写入文档。
程序下载的结果如图：

为一个空白文件，后缀改为.pdf打开，也是异常。


```python
DOI = '10.1617/s11527-007-9226-0'
mingzi = 'Textile reinforced mortar (TRM) versus FRP as strengthening material of URM walls: out-of-plane cyclic loading'
mulu = r"C:\Users\C\Desktop"

headers = {
        'user-agent': '浏览器user-agent',
        'cookie':'浏览器cookie'
    }
url = 'https://sci-hub.st/'
zong_url = url + DOI
r = requests.get(zong_url, headers=headers)
html = BeautifulSoup(r.text, 'html.parser')
weizhui = html.find('button')['onclick'][14:].replace('\'', '')
if 'sci-hub.st' in weizhui:
    dl_url = 'https:' + weizhui
else:
    dl_url = 'https://sci-hub.st' + weizhui
#这一步得到的dl_url在浏览器中输入可以正常下载，但是代码中下载异常
#这一步得到的dl_url为：https://moscow.sci-hub.st/1136/953c6f7d5defb1c69b86a69b2f0499d9/papanicolaou2007.pdf?download=true

#存入文档
myfile = requests.get(dl_url, headers=headers)
dizhi = mulu + r"\{}.pdf".format(mingzi)
with open(dizhi, 'wb') as f:
    f.write(myfile.content)

感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。

把每个文章的下载地址先打印出来，单独访问下载失败的文章的下载地址，看这些文章与其他文章有啥不一样

可能的原因是requests库默认使用HTTP/1.1协议来进行请求，而在HTTP/1.1下，在请求完成之前，该连接会一直保持打开状态，可能对于一些网站来说，持久连接时间过长，导致下载失败，需要手动关闭该链接。可以尝试使用以下代码：

myfile = requests.get(dl_url, headers=headers, stream=True)
with open(dizhi, 'wb') as f:
    for chunk in myfile.iter_content(chunk_size=1024*1024):
        if chunk:
            f.write(chunk)
    myfile.close()

这里使用了stream=True来开启流模式，避免一次性将内容全部读入内存中，同时使用iter_content来逐块读取内容并写入文件中，防止某些文件较大导致内存占用过大。在下载完成后手动关闭myfile连接。