有一个文档,命名为“小说.txt”,文档中的每一段文字前后都有<p>和</p>,用python要怎么才能删掉它们?然后将未删除的文字存到另一个txt文档里。
修改前:
修改后:
直接
s=s.replace('<p>','').replace('</p>','')
你如果想找到所有尖括号括起来的内容,可以这样
import re
a=re.findall('<.*?>',s)
然后你遍历a,将s中所有a中的元素都替换成空
with open('源文件路径/xxx.txt','r') as p: #以只读的方式打开不会改变原文件内容
lines = []
for i in p:
lines.append(i) #逐行将文本存入列表lines中
p.close()
#print(lines)
new = []
for line in lines: # 逐行遍历
p = 0 #定义计数指针
for bit in line:
if bit!='/':
p=p+1
else:
new.append(line[p+1:]) #将斜杠后面的内容加到新的list中
break
with open('生成目标文件路径/xxx.txt', 'w') as file_write:
for var in new:
file_write.writelines(var) #写入
中间判断那块也可以进行字符串替换