#!/usr/bin/python
import re
quchong = open('G:\007txt\chongfuhang.txt','r').readlines()
quchonghou = open('G:\007txt\chongfuhanghou.txt','w')
unique_quchong = []
for each_line in quchong:
if not each_line.find(',') == -1:
(time,content) = each_line.split(',',1)
if content not in unique_quchong:
unique_quchong.append(content)
quchonghou.write(time+','+'\n'.join(unique_quchong))
a.txt:
3798 a3 1-14 16:52,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
3799 a3 1-14 16:53,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
3800 a3 1-14 16:58,东北二环内环一线交通压力较大,车辆选择平安大街、东外小街、朝外小街等道路行驶。
我想得到的结果是:
b.txt:
3798 a3 1-14 16:52,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
3800 a3 1-14 16:58,东北二环内环一线交通压力较大,车辆选择平安大街、东外小街、朝外小街等道路行驶。
删除行为:
3799 a3 1-14 16:53,西部城区,受到部分商圈打折促销影响,阜成路、复兴路三环以外出城一线交通压力较大,
可以对逗号后面的字符串用三种不同的散列算法算Hash值,若三种Hash值都相同,就可以判定是同样的字符串。