现在有两个模型(w1,w2是权重,x1,x2是特征):(1)y = w1*x1 + w2 * x2
(2)y= w1 * x1
(3)y= w2 * x2
模型(3)的f值要比模型(1)和模型(2)的好,这种情况都有哪些原因啊,除了增加特征,增加了noise以外。
问题背景是:跨文档命名实体关联,特征x1是基于edit-distance的相似度,特征x2是该需要识别实体的一个window(55个词)里的所有命名实体;完整模型是最大熵模型。
求指点!
模型有噪音,或者两个模型是正交的。