比如说利用百度搜索引擎,输入一行关键字,返回了一个网页,我想要获得这个网页中所有链接(打开链接后)中的内容
首先,需要安装第三方库“requests”和“beautifulsoup4”。安装方法是在命令行中输入pip install requests和pip install beautifulsoup4。
然后,需要使用requests库发送一个GET请求,获取百度搜索结果页面的HTML代码。
接下来,使用beautifulsoup解析HTML代码,找到所有链接。
最后,遍历所有链接,并使用requests库获取链接所对应的网页的HTML代码。
代码如下:
import requests
from bs4 import BeautifulSoup
keyword = "关键字"
url = "https://www.baidu.com/s?wd=" + keyword
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
links = soup.find_all("a")
for link in links:
link_url = link.get("href")
link_response = requests.get(link_url)
link_soup = BeautifulSoup(link_response.text, "html.parser")
print(link_soup.text)
这是一个简单的爬取百度搜索结果页面中链接的网页内容的例子。但是这样做可能会被百度封杀IP.另外百度有反爬虫措施,爬取百度搜索数据需要添加headers,或者使用百度搜索接口。