题目要求是:produce a plot of the SSE value of the k-means clustering of the dataset(y-axis),versus k value (x axis)。
k 的范围是2-26。
我在网上看到两种写法
一种是cdist
另外一种是 km.inertia_
请问这两种区别是什么,到底哪个才是求SSE的值,哪一种才符合题目要求?
理论上说,两种都是可以算作是SSE,因为都是在计算所有数据点到与其最近的cluster center的距离总和,越小说明选择的k越适合这个数据.两种方法的不同之处在于:
cdist 计算的是euclidean distance,而km.inertia 计算的是squared distance, 也就是说一个算的是我们常用的距离的概念, 而另一个算了距离的平方. 两种操作都不影响最后对k 的选择, 后者无非是省略了一步开方运算罢了.