python批量爬取url的css和js地址

批量爬取txt文件中的url的css和js的地址[
{
host: "https://aaaa",
css: [
"https://aaaa/a.css"
],
js: [
"https://aaaa.b.js"
]
}

读取文件内容，然后对字符串进行分析，把http开头的数据抓取出来，以双引号作为分隔符。

用正则表达式从文本中提取需要的内容:

import re

txt = '''
{
host: "https://aaaa",
css: [
"https://aaaa/a.css"
],
js: [
"https://aaaa.b.js"
]
}
'''

arr = re.findall(r'http[^\'\"\s]+\.(?:css|js)',txt)
print(arr)

如果要读取本地磁盘文件用
import re
with open("data.txt","r") as f:
    txt = f.read()
arr = re.findall(r'http[^\'\"\s]+\.(?:css|js)',txt)
print(arr)

如果要读取网上的文件用
import re
import requests

url='https://xxxxxxxx/xxx.txt'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}
txt = requests.get(url,headers=headers).text #发送请求获取文本内容
arr = re.findall(r'http[^\'\"\s]+\.(?:css|js)',txt)
print(arr)

您好，我是有问必答小助手，你的问题已经有小伙伴为您解答了问题，您看下是否解决了您的问题，可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案，可以点击【采纳】按钮，给回答的小伙伴一些鼓励哦～～

ps:问答VIP仅需29元，即可享受5次/月有问必答服务，了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632