re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*',re.I)#Scriptthe_page=re_script.sub('',the_page) #去掉SCRIPT
正则去除html的script标签,包括
总是去的不完全,求问正则要怎么改一下?
比如这个网址:http://m.yanqingkong.com/
<(\s*script).*>.*</\1>写了一个,具体还是发你的数据上来吧