我用 beautifulsoup抓取一个一些网页的时候出现urllib2.urlopen(URL)不能取到 其代码, 比如 www.163.com/ www.sina.com这些网站
我抓他首页title都不能让我抓, 但是 抓其他网页 像 www.google.com www.baidu.com这些都没问题
是不是 www.163.com/ www.sina.com这些网页本身加了什么限制 就不能用urllib2.urlopen 来获取网页了?
如果是,怎么冲破他的限制呢 自由抓取呢
代码很简单:
[code="python"]
import urllib2
from BeautifulSoup import BeautifulSoup,Tag
import re
import os
import stat
def analysis(url_str):
page=urllib2.urlopen(url_str)
soup = BeautifulSoup(page,fromEncoding="gb2312")
#print unicode(soup.findAll("table")[4])
kk=soup.html.head.title
return kk
url_str="http://www.163.com"
str_string=analysis(url_str)
print str_string
[/code]
lz你的代码我运行结果是乱码,我把fromEncoding="gb2312"改为"gbk"问题就解决了,网易和新浪网页的字符编码都是gbk,gbk包含的字符要比gb2312多点,所以用gb2312抓取gbk的网页可能会产生乱码
可能跟http request中的User-Agent有关,有的网站只认定几个特定的user-agent.