关于sklearn.KMeans的问题,包正常安装,但是在运行时有其他错误
参数 | 描述 | |
参数 | n_clusters : int, optional, default: 8 | 要形成的簇的数目以及要生成的质心的数目。 |
init : {‘k-means++’, ‘random’ or an ndarray} | ‘k-means++’:选择初始聚类中心的K-均值聚类的智能方式,以加快收敛。 random:从初始质心数据中随机选择K个观测值(行)。 ndarray:它应该是形状(n-簇,n-特征)并给出初始中心。 | |
n_init : int, default: 10 | 用不同质心种子运行k-均值算法的次数。最后的结果将是连续运行在惯性方面的最佳输出。 | |
max_iter : int, default: 300 | 最大迭代次数 | |
tol : float, default: 1e-4 | 限制平方误差的来防止局部最优化 | |
precompute_distances : {‘auto’, True, False} | ‘auto’ : 如果n*样本*n群集>1200万,则不预先计算距离。这对应于使用双精度的每个作业大约100MB的开销。 True :总是预先计算距离 False:从来不预先计算距离
| |
verbose : int, default 0 | 冗长模式 | |
random_state : int, RandomState instance or None, optional, default: None | 如果是int,是随机数生成器使用的种子;如果RandomState实例,._state是随机数生成器;如果None,则随机数生成器是np.random使用的RandomState实例。 | |
copy_x : boolean, default True | 是否复制训练集 | |
n_jobs : int | 并行的数量 | |
algorithm : “auto”, “full” or “elkan”, default=”auto” | k-均值算法使用。经典的EM风格算法是“满”的。使用三角不等式,“ELKAN”变异更有效,但目前不支持稀疏数据。“自动”为密集数据选择“ELKAN”,为稀疏数据选择“满”。 | |
cluster_centers_ : array, [n_clusters, n_features] | 质心 | |
labels_ : : | 分类点标签 | |
inertia_ : float | 样本距离与它们最接近的聚类中心的距离之和。 |
from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
[4, 2], [4, 4], [4, 0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
kmeans.labels_
kmeans.predict([[0, 0], [4, 4]])
kmeans.cluster_centers_
常用方法
fit (X[, y]) | Compute k-means clustering. |
fit_predict (X[, y]) | Compute cluster centers and predict cluster index for each sample. |
fit_transform (X[, y]) | Compute clustering and transform X to cluster-distance space. |
get_params ([deep]) | Get parameters for this estimator. |
predict (X) | Predict the closest cluster each sample in X belongs to. |
score (X[, y]) | Opposite of the value of X on the K-means objective. |
set_params (**params) | Set the parameters of this estimator. |
transform (X) | Transform X to a cluster-distance space. |