为什么k均值只能(或最好)使用连续变量?

在使用k均值算法做聚类的时候为什么只能使用连续变量?分类变量只能做哑变量,哑变量如何使用?另外在聚类的时候如果计算出某些点为一类了,那么如何在计算出这一类点的中心点呢?我的币不多还请各位高手哥哥姐姐多多指教... ....

    首先你得知道,k均值算法中,当已经计算出几个点为一类,算法会求这一类的中心点,即聚类中心。求中心的方法一般用的就是欧几里得距离,比如说数轴上有一个区间中三个点 1, 3, 8  为一类,那么这类的中心点就为 ( 1+3+8 )/3=4 。你可以拓展到二维,三维。。。反正就是平均值,即所谓的 k均值 算法。
    那么,为什么要求连续呢?那就要看这几个点的实际意义了。比如说如果这些点只能以整数的形式存在,整数不连续,在数轴上只能是一个一个跳跃出现的点。那么,当你求平均的时候,可能求出小数,而实际不允许用小数描述这些数据。

http://www.zybang.com/question/d4f5bb811e93c84aae4b4dbdd8f3e89f.html