python批量爬取url的css和js地址

批量爬取txt文件中的url的css和js的地址[
{
host: "https://aaaa",
css: [
"https://aaaa/a.css"
],
js: [
"https://aaaa.b.js"
]
}

读取文件内容,然后对字符串进行分析,把http开头的数据抓取出来,以双引号作为分隔符。

用正则表达式从文本中提取需要的内容: 

import re

txt = '''
{
host: "https://aaaa",
css: [
"https://aaaa/a.css"
],
js: [
"https://aaaa.b.js"
]
}
'''

arr = re.findall(r'http[^\'\"\s]+\.(?:css|js)',txt)
print(arr)
如果要读取本地磁盘文件用
import re
with open("data.txt","r") as f:
    txt = f.read()
arr = re.findall(r'http[^\'\"\s]+\.(?:css|js)',txt)
print(arr)

如果要读取网上的文件用
import re
import requests

url='https://xxxxxxxx/xxx.txt'
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
}
txt = requests.get(url,headers=headers).text #发送请求获取文本内容
arr = re.findall(r'http[^\'\"\s]+\.(?:css|js)',txt)
print(arr)

 

您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632