pyhon提取url路径有的是相对路径,怎么可以转换成绝对路径呢?最好是贴代码
正则表达式不怎么熟悉 上面是我获取直接地址的代码 你看怎么添加你的代码 解决立即给分
正则可以 有忽略 大小写的 选项吧
compile(pattern, [flags]) 如I 表示大小写忽略
js中的哪是url? py也没法直接解析吧 可以sniffer http的request和respond 然后 模拟js的功能
pyquery里面直接可以
生成绝对链接
用户可以生成绝对链接,这在抓屏过程中很有效:
d = pq(url='http://www.w3.org/', parser='html')
d('a[title="W3C Activities"]').attr('href')
'/Consortium/activities'
d.make_links_absolute()
[]
d('a[title="W3C Activities"]').attr('href')
'http://www.w3.org/Consortium/activities'
#coding=utf-8
import urllib
import urllib2
import re
def getHtml(url):
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
req = urllib2.Request(url,headers=headers)
page = urllib2.urlopen(req);
html = page.read()
return html
def getImg(html):
reg = r'src="(h.*?g)"'
#reg = r'<img src="(.+?.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
print imglist
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
html = getHtml("http://pic.yxdown.com/list/0_0_1.html")
print getImg(html)