关于爬虫爬取动态网页的问题

今天爬学院的新闻网页，是aspx动态网页，琢磨了半天，发现只能使用cookie进行模拟登录
才会显示正确的内容，且只能将cookie写在header里如

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
           'Connection': 'keep-alive',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}

再

r = requests.get(url, headers=headers)

才能正确显示，但是直接使用却没法爬取，这是因为什么

cookies = {'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
r = requests.get(url, cookies=cookies)

还有一个问题，得到这个页面后，用lxml，html5lib,html.parser解析得到的都不同，这又是因为什么。。

1.是服务器做了一些认证，所以需要其他的一些头，尤其User-Agent，这样它才认为你是浏览器等
2. 页面内容可能是ajax异步返回的，所以你get的时候，页面内容很多都是空的，这个你需要用webdriver的方式去获取页面内容

1.服务端验证你的cookie，是一种“反爬虫”措施
2.三种解析方法采用了不用的解析算法，推荐采用lxml，c扩展速度非常快，应用广泛