NLP 如何对提取出来的新词进行词向量的过滤? 就是提取出来的新词可能什么方向的都有,我只需要其中某个领域的,比如医疗相关的.如何能实现对新词的一个过滤,进一步去除不相连的新词.
本人能力有限,建议你直接选取医疗方面的数据集
可以将所有的新词做一个聚类,然后再人工找出哪个簇是跟医疗相关的,同一个簇里面的词应该都是同一个领域的
进一步去除不相连的新词.
什么是相连的新词? 来几个例子?
很有趣的问题
两个思路,一个就像之前的一个答案里提到的基于聚类去做,可是这里存在一个问题,就是坐标系问题,如果是某个垂类的专有名词类似 蛋白质名,基因名一类的不存在二义性的还好
但是如果是非垂类的与上下文相关的内容那绝对坐标系(以word2vector为代表)可能会遇到问题,
另一方面是使用相关语料训练,把问题转换成序列标注问题,使用相对坐标系(以bert为代表),可以一定程度上缓解相关问题,但是有可能会由此产生新的问题,即准确性和召回率的调和问题(f1score)。
当然最大的问题其实还是在于结果难以考核的问题,即:你不知道自己抽出来的词究竟是不是错了,因为数据量实在是大,而核验成本因此高到难以接受。
以我个人经验最好还是能和业务结合起来形成。即产生新词,又能让业务也某种方式对结果进行置信度评价从而产生有意义的积累。
如果其他同学有相关的想法或者想和我讨论的问题希望可以私信我