练习Python时发现一个网站,完全查看不到网页的源代码

网站地址:https://www.afa.org/publications-news/news/

今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后,
我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。

有没有大神们能指点一下,这种网站要如何进行爬取。

是要找文章内容吗?我找到对应的JS,https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json,代码如下:

import requests
def test():
    s=requests.session()
    headers={
        'Accept':'application/json, text/javascript, */*; q=0.01',
        'Accept-Encoding':'gzip, deflate, br',
        'Accept-Language':'zh-CN,zh;q=0.9',
        'Connection':'keep-alive',
        'Host':'www.afa.org',
        'Referer':'https://www.afa.org/publications-news/news/',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36',
        'X-Requested-With':'XMLHttpRequest'

    }
    s.headers.update(headers)
    url='https://www.afa.org/publications-news/news/_jcr_content/content/news.news.json'
    req=s.get(url=url).text
    print(req)
    s.close()


test()

chrome能看到源码啊,???

你可以看看是否为动态加载页面,如果是,你可以使用selenium库的webdriver来动态爬取
首先在你的浏览器上安装对应的插件(例如我的浏览器是chrome)
driver = webdriver.Chrome
driver.get('website')
如果要想保存登录信息,可以去我的博文里看看