import json
import requests
from bs4 import BeautifulSoup
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
data={'form':'news_webapp',
'pd':'webapp',
'os':'android',
'ver':6,
'category_name':'汽车',
'category_id':'',
'action':0,
'display_time':1559091497963,
'mid':'110B561D1D1B9ABD25614852D9CA61CD:FG=1'}
urls='https://news.baidu.com/sn/api/feed_channellist'
res=requests.post(urls,data=data,headers=headers)
js=json.loads(res.text)
if data and 'data' in js.keys():
for link in js.get('data'):
print link.get('news')
我刚试了一下,你的代码没有问题。
出现这个问题的情况应该是你爬取的网站对你做了限制。
你这个处理只是正确的处理情况,就是爬取文章返回的是正确数据时,也就是说你第一次请求时返回的数据是正确的,你这个处理没有问题
但是你再次请求时,网站对你做了反爬虫处理,所以返回的数据是为空了,所以你再对一个空数据做做get请求时,就是错误数据了
link是一个unicode类型变量,没有get方法。