python提取网页超链接,保存txt文件名的问题,
怎么保存
编号.+空格
提取到的第一个超链接网址
(掐头去尾,保存baidu)
第一个超链接文本名
39(统计提取出来的链接数).txt”
最终呈现效果是 我的文件名是这种
1. 提取的链接🔗 dushu 首页.txt
(可以不要统计链接🔗数)
这个 dushu 首页 是这个
链接: https://m.dushu.com
链接文字: 首页
我的txt文本中提取到的第一个超链接
我提取到超链接txt文本是这种
链接: https://m.dushu.com
链接文字: 首页
链接: /news/
链接文字: 资讯
链接: /lianzai/
链接文字: 连载
链接: /meiwen/
链接文字: 美文
链接: /guoxue/
链接文字: 国学
链接: /book/
链接文字: 书库
链接: /daohang/
等等
```这是提取来的链接
【以下回答由 GPT 生成】
首先,我们需要安装beautifulsoup4
库来解析网页内容。可以通过以下命令来安装:
pip install beautifulsoup4
在代码中导入bs4
和requests
库:
from bs4 import BeautifulSoup
import requests
使用requests
库来获取网页的内容,并保存到变量html
中:
url = "YOUR_URL_HERE"
response = requests.get(url)
html = response.text
请将YOUR_URL_HERE
替换为你要提取链接的网页的URL地址。
使用BeautifulSoup
库来解析网页内容,并提取超链接:
soup = BeautifulSoup(html, "html.parser")
links = soup.find_all("a")
从提取到的链接列表中,获取第一个超链接的网址和文本名:
first_link = links[0]
href = first_link.get("href")
text = first_link.text.strip()
根据提取到的超链接网址和文本名,创建保存文件名:
filename = f"编号. {href}(掐头去尾,保存baidu) {text}.txt"
请根据实际情况修改编号
和保存baidu
。
将提取到的链接保存到文本文件中:
with open(filename, "w") as file:
for link in links:
href = link.get("href")
text = link.text.strip()
file.write(f"链接: {href}\n链接文字: {text}\n\n")
下面是完整的代码示例:
from bs4 import BeautifulSoup
import requests
# 步骤 3: 获取网页内容
url = "YOUR_URL_HERE"
response = requests.get(url)
html = response.text
# 步骤 4: 解析网页内容
soup = BeautifulSoup(html, "html.parser")
links = soup.find_all("a")
# 步骤 5: 提取第一个超链接的网址和文本名
first_link = links[0]
href = first_link.get("href")
text = first_link.text.strip()
# 步骤 6: 创建保存文件名
filename = f"编号. {href}(掐头去尾,保存baidu) {text}.txt"
# 步骤 7: 保存文件
with open(filename, "w") as file:
for link in links:
href = link.get("href")
text = link.text.strip()
file.write(f"链接: {href}\n链接文字: {text}\n\n")
请将YOUR_URL_HERE
替换为你要提取链接的网页的URL地址。
beautifulsoup4
和requests
库。YOUR_URL_HERE
为你要提取链接的网页的URL地址。希望这个解决方案对你有帮助!如果你有任何问题,请随时向我提问。
【相关推荐】