有一个文件夹有多个test.log文件
文件内容有多行,提示信息可能不一样,我只需要有下面license failure的这部分:
2021-01-01 07:58:29 Connect from 192.168.1.1 (username/hostname)licensekey1-ABC123456
2021-01-01 07:58:29 Key for 192.168.1.1 (username/hostname)change to licensekey2
2021-01-01 07:58:29 no valid license for floating license key licensekey2, license failure
如何用python在log中抓到“license failure”的关键字,并提取 时间戳,IP地址,username, hostname, license key 1, license key2并写入CSV文件相应的字段里,谢谢🙏
你的日志中能保证稳定的结构吗?
就是在 license failure
的前两行中肯定是类似Connect from 192.168.1.1 (username/hostname)licensekey1-ABC123456
和Key for 192.168.1.1 (username/hostname)change to licensekey2
如果是,则依次移动日志的行指针,先查找license failure
标志,再在其前面2行中提取你需要的数据即可。
大致为(此外你的licensekey1
和licensekey2
特征是什么还可能影响下面的正/规则式的具体实现。):
import os
import re
path = r"E:/xxx" #读取文件的目录路径
for root, dirs, files in os.walk(path):
for fn in files:
if fn.endswith(".log"): # 依次读取文件
fh = os.path.join(root,fn)
print("文件:",fh)
with open(fh, 'r', encoding='utf-8') as fileObj:
r1=“”
r2=“”
r3=“”
for aline in fileObj.readline()
if r1==“”:
r1=aline
continue
if r2==“”:
r2=aline
continue
r3=aline
matchObj = re.search( r"license failure", r3)
if matchObj :# 在第3行搜索到特征值,在其上2行中检索信息
result1 = re.findall(r'^(\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2})\s*Connect\s+from\s+([ABCDEF\d\.:]+)\s*\((.+)/(.+)\)\s*key\s+([a-z]{4}-[a-z]{4}-[a-z]{4}-[a-z]{4}\s+-\s+[A-Z][A-Z]\d{14})$',r1) #这里提取时间戳、来源IP,username、hostname 、licensekey1
result2 =re.findall(r'^\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2}\s+Key\s+for\s+[ABCDEF\d\.:]+\s*\(.+/.+\)\s*change to\s+([a-z]{4}-[a-z]{4}-[a-z]{4}-[a-z]{4}).*$',,r2) # 这里提取linsekey2
print("T:{}\nIP:{}\nusername:{}\nhostname:{}\nlicensekey1:{}\nlicensekey2:{}".format(result1[0][0],result1[0][1],result1[0][2],result1[0][3],result1[0][4],result2[0][0])) # 根据要求输出提取到的信息,这里没有精确处理,可能还需要调整
r1=""
r2=""
else:
r1=r2
r2=r3
你要提取哪些内容? 举例说明下
这是用正则表达式获取从2021-01-01 07:58:29 Connect from 到 license failure之间的内容,你需要什么可以进一步分析
import os
import re
path = r"E:/xxx" #读取文件的目录路径
for root, dirs, files in os.walk(path):
for fn in files:
if fn.endswith(".log"):
fh = os.path.join(root,fn)
print("文件:",fh)
with open(fh, 'r', encoding='utf-8') as fileObj:
s = fileObj.read()
# 这是用正则表达式获取从2021-01-01 07:58:29 Connect from 到 license failure之间的内容,你需要什么可以进一步分析
li = re.findall(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}\s+Connect from\s+[\s\S]+?license failure)',s)
print(li)
第一种办法、用正则表达式匹配license failure字段,并把包含该关键字的起始到结束信息全部提取出来,然后再使用正则表达式分别提取出时间戳等字段
第二种办法、循环加判断,如果该行包括“license failure”字段,就把相应的前面n行抓取出来,然后如果时间戳等字段固定的话,可以使用字符串分割、切片提取出来
要取这么多信息应该是Connect与failure之间来提取吧?
看了上边你与其他答主的交流,我大概明白了你的需求,但是还有问题就是
1、你提供的日志文件太少了,不只是有用信息,无用信息也很重要,因为要指定适合的过滤手段
2、license key 1, license key2,只看到了key1的出现方式,key2的没有,是完全一样的出现方式吗