Python医药行业药品之间的匹配问题

是不是同一个药品,由三个因素决定:分别是药名、规格、厂家

问题:已知a表几万个商品,如何通过这三个因素,来把b表中相同的药品匹配出来

这个问题最难的地方在于:

1、表中药品不规范,比如有错别字,有药名(备注商品名)的比如复方氨酚烷胺片(感康),或者感康 复方氨酚烷胺片的

2、规格呢,有含量*数量的,有数量*含量的,有含量*小包装数量*大包装数量的,还有写千克或者㎏或者1000g的,各种奇葩

3、厂家,有简称的,有全称的

条形码和国药准字都没的,有也不会来问大家,这个问题如何匹配...有好的办法吗

难,需要大...量的数据去判断,再 去匹配。有错别字这就很难了。比如你说感康还好匹配,来一个‘敢康’ 怎么弄, 哈哈