import urllib
import urllib2
import re
import os
#爬取索引页面源代码
siteURL='https://www.warningsignsdirect.co.uk/index.php?cPath=518'
request=urllib2.Request(siteURL)
response=urllib2.urlopen(request)
page=response.read().decode('utf-8')
print u"已爬取索引页面源代码"
os.chdir("C:\Users\hey_fall\Desktop")
#抓取页面中指定的图片
pattern=re.compile('
#抓取图片的说明文本
patternIntroductions=re.compile('title="(.*?)"',re.S)
Introductions=re.findall(patternIntroductions,str(content))
#去除匹配字符中的转义字符
number=0
for introduction in Introductions:
Introductions[number]=str(introduction).replace('\','')
number+=1
print u"已爬取图片的说明文本"
#抓取说明文本的标题
patternTitle=re.compile('
#创建文件夹
path=os.getcwd()
title=Title[0]
new_path=os.path.join(path,title)
if not os.path.isdir(new_path):
os.makedirs(new_path)
os.chdir(new_path)
print u"已创建文件夹",new_path
#保存图片的说明文本
IntroductionName=Title[0]+".txt"
f=open(IntroductionName,'w+')
for introduction in Introductions:
f.write(introduction+'\n')
f.close()
print u"图片的说明文本已保存到",new_path
#保存抓取到的图片
number=0
for imageURL in images:
filename=Introductions[number]+'.jpg'
url='https://www.warningsignsdirect.co.uk'+'/'+imageURL
urllib.urlretrieve(url,filename)
number+=1
print u"图片已保存到",new_path
print u"该网页内容爬取完毕"
文件名里是否有特殊字符,是否有文件写入的权限
import IO #引用io模块
你可以将爬取到的信息装入io模块对应的stringIO或webIO对象中,利用此对象进行处理,再使用IO模块强制存入文件中