Python中kmeans算法案例的编写

Python中kmeans算法案例编写，实现数据点的聚类。案例数据为

可以参考

python手写K-means实现二维聚类_海小皮HXP的博客-CSDN博客_二维聚类欢迎来到海小皮的CSDN博客今天人工智能的实验，简单学习了K-means的二维聚类，在这里介绍给大家，注释非常详细哦！1、思路介绍这个方法理解起来不是特别的难，首先我来介绍一下基本思路，我以比较通俗易懂的比喻来讲解：（1）现在往地面上撒了一把豆子（随机散布），每个豆子有自己的二维坐标（两个维度的变量）（2）首先随机选K个豆子作为初始的代表人物（初始中心点），他们代表了各自的团体（聚类子集）（3）每个豆子都计算自己到各个代表人物间的距离，加入距离自己最近的代表人物的团队，得到初始聚类（4）计算每

https://blog.csdn.net/weixin_42464904/article/details/111939506

https://zhuanlan.zhihu.com/p/438554143
修改一下里面的数据就可以了

Demo:

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=300, centers=4,
                       cluster_std=0.60, random_state=0)
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.show()

from sklearn.cluster import KMeans

"""
    KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300,
            tol=0.0001, precompute_distances='auto', verbose=0, 
            random_state=None, copy_x=True, n_jobs=1, algorithm='auto')
        Parameters:
             n_clusters: 聚类个数
             max_iter：  最大迭代数
             n_init：    用不同的质心初始化值运行算法的次数
             init：      初始化质心的方法
             precompute_distances：预计算距离
             tol：       关于收敛的参数
             n_jobs：    计算的进程数
             random_state： 随机种子
             copy_x：是否修改原始数据
             algorithm：“auto”, “full” or “elkan”
                         ”full”就是我们传统的K-Means算法， 
                         “elkan”elkan K-Means算法。默认的
                         ”auto”则会根据数据值是否是稀疏的，来决定如何选择”full”和“elkan”,稠密的选 “elkan”，否则就是”full”
        Attributes：
             cluster_centers_：质心坐标
             Labels_: 每个点的分类 
             inertia_：每个点到其簇的质心的距离之和。 
"""
m_kmeans = KMeans(n_clusters=4)
from sklearn import metrics


def draw(m_kmeans, X, y_pred, n_clusters):
    centers = m_kmeans.cluster_centers_
    print(centers)
    plt.scatter(X[:, 0], X[:, 1], c=y_pred, s=50, cmap='viridis')
    # 中心点（质心）用红色标出
    plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
    print("Calinski-Harabasz score：%lf" % metrics.calinski_harabasz_score(X, y_pred))
    plt.title("K-Means (clusters = %d)" % n_clusters, fontsize=20)
    plt.show()


m_kmeans.fit(X)
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=4, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)
y_pred = m_kmeans.predict(X)
draw(m_kmeans, X, y_pred, 4)

参考链接：

嘿，来聚个类简单易懂，图解聚类算法

https://cuijiahua.com/blog/2021/04/ml-14.html