1.在一个数据库中提取物种名称,但是遇到复杂的中括号嵌套的情况。
而我只需要最后一个方括号里的内容,有些方括号里面有嵌套(整条字符串如图,我只想要截取我画了白线的最后一个方括号里的内容)
2.数据量很大,上亿条,如果可以最好有快速一点的方法,没有也没关系。
3.如果有的行很复杂不太好实现,能提取大部分行的就好
一开始用shell,但是知识太浅薄莫有想到很好的解决方法。
BAX96271.1 hypothetical protein MSTE_00936 [[Mycobacterium] stephanolepidis]
OGT92901.1 methylenetetrahydrofolate reductase [NAD(P)H] [Gammaproteobacteria bacterium RIFOXYA12_FULL_61_12]
NHB59397.1 methylated-DNA--[protein]-cysteine S-methyltransferase [Acinetobacter shaoyimingii]
EDV2009001.1 two component system sensor kinase [Salmonella enterica subsp. enterica serovar 4,[5],12:i:-]
cat file | awk -F "[" '{print $2}'
只能截取无嵌套且有且只有一个方括的行。
折腾了好久了,刚刚看了堆栈的方法但是还是不弄。shell,python、perl都可以
我用python写的
def findOffset(str,offset):
# 找到最后一个[的index
index = str.find('[', offset, len(str))
# 取出最后一个[ 和 ] 之间的内容
tmpstr = str[offset:index+1]
# 如果最后一个[ 和 ] 之间存在] 说明没取成功
if tmpstr.find(']', 1, len(tmpstr)) != -1:
findOffset(str, index+1)
else:
print(str[index::-1])
f = open("1.txt", "r")
for line in f.readlines():
reversed_line = line.strip()[::-1]
findOffset(reversed_line, 0)
f.close()
效果