我在network下all和fetch没找到诶,怎么才能找到啊,不能selenium方法
获取中国大学排名的多页面URL,您可以使用以下方法:
打开中国大学排名的首页,并在浏览器的地址栏中输入要访问的排名页面的URL,例如:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html%E3%80%82
按下F12键,打开浏览器的开发者工具,并切换到“网络”选项卡。
在浏览器中选择需要抓取的排名页面,例如2019年度的排名页面,然后查看开发者工具中显示的请求信息。您应该能够看到一个名为“zuihaodaxuepaiming2019.html”的请求。
单击该请求,查看请求的详情。您应该能够看到该请求的URL,例如:http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html%E3%80%82
需要注意的是,中国大学排名的网站可能会限制您的访问次数,如果您需要批量抓取排名数据,可能需要使用代理IP、设置访问间隔时间等方法,以避免被网站屏蔽。另外,使用爬虫抓取数据可能涉及法律风险,请务必遵守相关法规。
不知道你这个问题是否已经解决, 如果还没有解决的话:回答:
根据问题描述,可以考虑使用以下方法获取中国大学排名多个页面的URL:
打开网址http://www.zuihaodaxue.cn/subject-ranking.html,查看该网站是否提供API接口,如果有则可直接调用接口获取排名和URL信息。如果没有,则需要采用爬虫技术获取数据。
使用Chrome浏览器的developer tools(开发者工具)的network功能,查看是否有ajax请求数据的URL,如果有则可直接获取。如果没有,则需要对整个页面进行解析,查找页面中是否包含有需要的URL。
对于无法使用Selenium方法的限制,可以尝试使用Python的requests库获取页面内容,使用BeautifulSoup等解析库解析网页,查找需要的URL。代码示例:
```python import requests from bs4 import BeautifulSoup
url = 'http://www.zuihaodaxue.cn/subject-ranking.html' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') urls = [] for a in soup.find_all('a', href=True): if 'zuihaodaxue' in a['href'] and 'subject' in a['href']: urls.append(a['href']) print(urls) ```
该示例代码使用requests库获取页面内容,通过BeautifulSoup解析HTML页面,查找带有'zuihaodaxue'和'subject'的URL,将其保存到urls列表中,并打印输出urls列表。
如果以上方法仍然不能获取所需的URL,则可能需要进一步分析网站页面,包括HTML代码和JavaScript代码,才能得到有效的解决方法。
最后需要注意的是,在爬取数据的过程中,一定要遵守网站的robots.txt规则,避免对网站服务器造成过大的负荷影响。