python爬取内容

爬取网站内所有超链接里面的文字内容,以标题的名字保存在指定的文件内

望采纳


首先,你需要使用 Python 的 urllib 库来访问网页并获取它的 HTML 内容。然后,你可以使用 Python 的 beautifulsoup4 库来解析 HTML 内容,并提取链接和文本。


下面是一个示例代码,你可以根据自己的需要来修改它。

from urllib.request import urlopen
from bs4 import BeautifulSoup

# 访问网页并获取 HTML 内容
url = "https://www.example.com"
html = urlopen(url)

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html, "html.parser")

# 提取所有的链接
links = soup.find_all("a")

# 遍历每个链接,提取文本并保存
for link in links:
    text = link.text
    # 在这里使用你喜欢的方式来保存文本
    # 例如,你可以使用标题作为文件名,并将文本写入文件中
    with open(text + ".txt", "w") as f:
        f.write(text)