邮件日志信息匹配的问题

现在有一公司每天都要群发邮件,每天会产生一个邮件日志,大约80多M。现在需要读取这个日志,提取出错误信息,但是错误信息很乱,没规律。目前的解决方案是,列举邮件发送错误的所有情况,然后挨个比对。请问各位大牛们,有没有更好的解决方案?另外,两个英文句子的匹配采取什么算法匹配率会高?