在项目开发中,用户需要在数据库导入大量在线商户信息,但是由于每个商户信息是通过外包采集员进行采集,所以存在商户信息重复的问题。所以,用户要求到导入EXCEL文件时操作时,先判断数据库中是否存在和EXCEL文件相似记录,如果有相似记录需要把正式信息和导入信息合并到一个文件中,用户导出进行修改。
相似数据实例如下:
名称 地址
北京视频影像公司 北京市朝阳区八里桥221号
视频影像公司 北京市朝阳区八里桥221号
北京视频影像公司人力资源部 北京市八里桥221号
请大家讨论如何解决。现在系统对数据库做了搜索索引,可以进行搜索。
8) 要看你们打算以名称相似排序还是地址相似排了,当然也可以两个同时排,方法可以使用类似百度谷歌输入关键字提示的方法差不多,简单的说可以用三叉树做个相近字符搜索,当然具体哪些是一样的还是需要人来判断,机器最多将相似度较高的放一起,好让人来作选择。
为什么不采集的时候采用执照号,手机号,法人身份证等唯一的字段做标识呢?这些过滤怕是得人工纠正,程序靠不住。
使用LCS算法,找出最长相似的字符串,如果长度大于某个值,就认为他们是一样的