使用requests库抓取网页,使用json获取微博中的评论(评论内容游戏对大学生的影响)。
抓取百度使用requests库。
找到任意网站的User-Agent,并替换代码中的请求头抓取知乎使用requests 库,语言程序输入需规范,能够独立运行。
使用python对获取到的评论进行分析文件进行分析。
分析结果展示仅为图形。
图形应与数据相关,若结果与给定数据无关,及时生成图表均为结果不对。
分析网站
一般网站数据请求都是通过XMLHttpRequest或Fetch返回,所以直接通过F12开发者工具查看网络
查看发送的数据:
上代码:
import json
import requests
def get_info():
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do'
# 添加头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
# 请求数据
data = {
'method': 'getXkzsList',
'on': 'true',
'page': 2,
'pageSize': 15,
'conditionType': 1
}
response = requests.post(url,data=data,headers=headers)
text = json.loads(response.text)
# 打印第一条数据
print(text.get('list')[0])
if __name__ == '__main__':
get_info()