爬取网站内所有超链接里面的文字内容,以标题的名字保存在指定的文件内
望采纳
首先,你需要使用 Python 的 urllib 库来访问网页并获取它的 HTML 内容。然后,你可以使用 Python 的 beautifulsoup4 库来解析 HTML 内容,并提取链接和文本。
下面是一个示例代码,你可以根据自己的需要来修改它。
from urllib.request import urlopen
from bs4 import BeautifulSoup
# 访问网页并获取 HTML 内容
url = "https://www.example.com"
html = urlopen(url)
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html, "html.parser")
# 提取所有的链接
links = soup.find_all("a")
# 遍历每个链接,提取文本并保存
for link in links:
text = link.text
# 在这里使用你喜欢的方式来保存文本
# 例如,你可以使用标题作为文件名,并将文本写入文件中
with open(text + ".txt", "w") as f:
f.write(text)