提取最后一个方括号里的内容(有嵌套),shell,python

问题遇到的现象和发生背景

1.在一个数据库中提取物种名称,但是遇到复杂的中括号嵌套的情况。
而我只需要最后一个方括号里的内容,有些方括号里面有嵌套(整条字符串如图,我只想要截取我画了白线的最后一个方括号里的内容)
2.数据量很大,上亿条,如果可以最好有快速一点的方法,没有也没关系。
3.如果有的行很复杂不太好实现,能提取大部分行的就好
一开始用shell,但是知识太浅薄莫有想到很好的解决方法。

img

BAX96271.1 hypothetical protein MSTE_00936 [[Mycobacterium] stephanolepidis]
OGT92901.1 methylenetetrahydrofolate reductase [NAD(P)H] [Gammaproteobacteria bacterium RIFOXYA12_FULL_61_12]
NHB59397.1 methylated-DNA--[protein]-cysteine S-methyltransferase [Acinetobacter shaoyimingii]
EDV2009001.1 two component system sensor kinase [Salmonella enterica subsp. enterica serovar 4,[5],12:i:-]

用代码块功能插入代码,请勿粘贴截图

cat file | awk -F "[" '{print $2}'

运行结果及报错内容

只能截取无嵌套且有且只有一个方括的行。

我想要达到的结果

折腾了好久了,刚刚看了堆栈的方法但是还是不弄。shell,python、perl都可以

我用python写的

def findOffset(str,offset):
    # 找到最后一个[的index
    index = str.find('[', offset, len(str))

    # 取出最后一个[ 和 ] 之间的内容
    tmpstr = str[offset:index+1]
    # 如果最后一个[ 和 ] 之间存在] 说明没取成功
    if tmpstr.find(']', 1, len(tmpstr)) != -1:
        findOffset(str, index+1)
    else:
        print(str[index::-1])


f = open("1.txt", "r")

for line in f.readlines():
    reversed_line = line.strip()[::-1]
    findOffset(reversed_line, 0)

f.close()

效果

img