用python提取log中的失败信息的相关参数

有一个文件夹有多个test.log文件
文件内容有多行,提示信息可能不一样,我只需要有下面license failure的这部分:
2021-01-01 07:58:29 Connect from 192.168.1.1 (username/hostname)licensekey1-ABC123456
2021-01-01 07:58:29 Key for 192.168.1.1 (username/hostname)change to licensekey2
2021-01-01 07:58:29 no valid license for floating license key licensekey2, license failure
如何用python在log中抓到“license failure”的关键字,并提取 时间戳,IP地址,username, hostname, license key 1, license key2并写入CSV文件相应的字段里,谢谢🙏

你的日志中能保证稳定的结构吗?
就是在 license failure 的前两行中肯定是类似
Connect from 192.168.1.1 (username/hostname)licensekey1-ABC123456

Key for 192.168.1.1 (username/hostname)change to licensekey2

如果是,则依次移动日志的行指针,先查找license failure 标志,再在其前面2行中提取你需要的数据即可。
大致为(此外你的licensekey1licensekey2特征是什么还可能影响下面的正/规则式的具体实现。):

import os
import re
 
path = r"E:/xxx" #读取文件的目录路径
for root, dirs, files in os.walk(path):
    for fn in files:
        if fn.endswith(".log"): # 依次读取文件
            fh = os.path.join(root,fn)
            print("文件:",fh)
            with open(fh, 'r', encoding='utf-8') as fileObj:
                r1=“”
                r2=“”
                r3=“”
                for aline  in   fileObj.readline()
                   if r1==“”:
                        r1=aline
                        continue
                   if r2==“”:
                         r2=aline
                        continue
                   r3=aline
                   matchObj = re.search( r"license failure", r3)
                   if matchObj :# 在第3行搜索到特征值,在其上2行中检索信息
                        result1 = re.findall(r'^(\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2})\s*Connect\s+from\s+([ABCDEF\d\.:]+)\s*\((.+)/(.+)\)\s*key\s+([a-z]{4}-[a-z]{4}-[a-z]{4}-[a-z]{4}\s+-\s+[A-Z][A-Z]\d{14})$',r1) #这里提取时间戳、来源IP,username、hostname 、licensekey1
                        result2 =re.findall(r'^\d{4}-\d{2}-\d{2}\s+\d{2}:\d{2}:\d{2}\s+Key\s+for\s+[ABCDEF\d\.:]+\s*\(.+/.+\)\s*change to\s+([a-z]{4}-[a-z]{4}-[a-z]{4}-[a-z]{4}).*$',,r2)     # 这里提取linsekey2   
                        print("T:{}\nIP:{}\nusername:{}\nhostname:{}\nlicensekey1:{}\nlicensekey2:{}".format(result1[0][0],result1[0][1],result1[0][2],result1[0][3],result1[0][4],result2[0][0])) # 根据要求输出提取到的信息,这里没有精确处理,可能还需要调整            
                        r1=""
                        r2=""
                    else:
                        r1=r2
                        r2=r3

你要提取哪些内容? 举例说明下
这是用正则表达式获取从2021-01-01 07:58:29 Connect from 到 license failure之间的内容,你需要什么可以进一步分析

import os
import re

path = r"E:/xxx" #读取文件的目录路径
for root, dirs, files in os.walk(path):
    for fn in files:
        if fn.endswith(".log"):
            fh = os.path.join(root,fn)
            print("文件:",fh)
            with open(fh, 'r', encoding='utf-8') as fileObj:
                s = fileObj.read()
                # 这是用正则表达式获取从2021-01-01 07:58:29 Connect from 到 license failure之间的内容,你需要什么可以进一步分析
                li = re.findall(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}\s+Connect from\s+[\s\S]+?license failure)',s)
                print(li)

第一种办法、用正则表达式匹配license failure字段,并把包含该关键字的起始到结束信息全部提取出来,然后再使用正则表达式分别提取出时间戳等字段
第二种办法、循环加判断,如果该行包括“license failure”字段,就把相应的前面n行抓取出来,然后如果时间戳等字段固定的话,可以使用字符串分割、切片提取出来

这篇文章讲的很详细,请看:python--log的实现

要取这么多信息应该是Connect与failure之间来提取吧?

看了上边你与其他答主的交流,我大概明白了你的需求,但是还有问题就是
1、你提供的日志文件太少了,不只是有用信息,无用信息也很重要,因为要指定适合的过滤手段
2、license key 1, license key2,只看到了key1的出现方式,key2的没有,是完全一样的出现方式吗