你好,我想问一下,假如我们数据集某特征都是字符串,该怎么计算距离?假如我们数据集某特征都是离散的整数,该怎么计算距离?
当变量是字符串时,可以使用最长公共子序列来计算字符串的距离。当变量是离散整数时,可以使用曼哈顿距离或者欧几里得距离(Euclidean Distance)来计算变量的距离。曼哈顿距离的算法为 |X1-Y1| + |X2-Y2| + .. + |Xn-Yn|,其中X、Y表示两个离散变量,n表示离散变量的维度。欧几里得距离的计算公式为 SQRT((X1-Y1)^2 + (X2-Y2)^2 +...+(Xn-Yn)^2),其中X、Y表示两个离散变量,n表示离散变量的维度。