简述标称属性、非对称二元属性、数值属性和词频向量的相似度评价方法

简述标称属性、非对称二元属性、数值属性和词频向量的相似度评价方法

引用 皆我百晓生 小程序回复内容作答:标称属性是指只具有名称或符号,而没有任何数量或顺序性质的属性,例如性别、颜色等。对于标称属性的相似度评价方法,常用的方法包括等价性比较和差异性比较。等价性比较方法是将两个标称属性的取值进行比较,如果取值完全相同则认为相似度为1,如果有不同的取值则认为相似度为0。差异性比较方法是统计两个标称属性取值不同的个数,然后用1减去差异的个数除以总的取值个数,得到相似度评价值。

非对称二元属性是指只有两种取值的属性,但这两种取值并没有比较大小的意义,例如是否有孩子、是否购买等。对于非对称二元属性的相似度评价方法,常用的方法包括Jaccard相似系数和余弦相似度。Jaccard相似系数是指两个属性取值交集的大小除以两个属性取值并集的大小。余弦相似度是指两个属性取值交集的大小除以两个属性取值模的乘积。

数值属性是指具有实数取值的属性,例如年龄、身高等。对于数值属性的相似度评价方法,常用的方法包括欧氏距离和相关系数。欧氏距离是指两个属性取值差的平方和的开方,相关系数是指两个属性取值之间的线性关系强度。

词频向量是指用于表示文本特征的向量,其中每个维度表示一个词在文本中出现的频率。对于词频向量的相似度评价方法,常用的方法包括余弦相似度和Jaccard相似系数。余弦相似度是指两个词频向量的内积除以两个向量的模的乘积。Jaccard相似系数是指两个词频向量的交集大小除以两个向量的并集大小。