简单爬虫时候遇到的小bug


import re
import requests

# url内输入你要下载的图片地址
page=1
url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+'戴安全帽的给人'+'&pn='+str(page*30)

headers={
   'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36'
}
html = requests.get(url=url, headers=headers).text
pic_urls = re.findall('"objURL":"(.*?)",', html, re.S)#正则匹配
i=0
for each in pic_urls:
    print(each)
    try:
        pic = requests.get(each, timeout=10)
    except requests.exceptions.ConnectionError:
        print('错误:当前图片无法下载')
        continue
        # 在运行路径下新建个文件夹命名为pictures
    string = 'helmet_image\\' + str(i) + '.jpg'
    fp = open(string, 'wb')
    fp.write(pic.content)
    fp.close()
    i += 1

大部分的图片都能正常显示

img


而小部分则会这样,什么原因导致的?

img

这样试试
获取那个 search/down?tn=download 。。。。 的链接。
文件名改成jpeg 后缀。