使用sklearn实现K-means:如何对“实验7数据”中第二列和第三列的数据进行聚类分析?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
df=pd.read_csv('实验7数据.csv',encoding='gbk')
plt.figure(figsize=(12,12))
X=df.values
X=X[:,1:3]
n_samples=X
random_state=2000
X,y=make_blobs(n_samples=n_samples,random_state=random_state)
y_pred=KMeans(n_clusters=2,random_state=random_state).fit_predict(X)
plt.subplot(221)
plt.scatter(X[y_pred==0][:,0],X[y_pred==0][:,1],marker='x',color='b')
plt.scatter(X[y_pred==1][:,0],X[y_pred==1][:,1],marker='+',color='r')
plt.title("Two")

小白一名,感觉就是n_samples那里不清楚,不咋会用。附上整个代码,大佬帮忙看看

X=df.values   # 取出csv的内容
X=X[:,1:3]  # 行的长度不变,列为 1:3,也就是索引为 1,2的,就是第二和第三列
n_samples=X  # 将取出的第二和第三列赋值给 n_samples
random_state=2000
X,y = make_blobs(n_samples=n_samples,random_state=random_state)  # 生成数据集, n_samples样本的个数,random_state随机种子
y_pred=KMeans(n_clusters=2,random_state=random_state).fit_predict(X)   # 训练

 

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
df=pd.read_csv('实验7数据.csv',encoding='gbk')
plt.figure(figsize=(12,12))
X=df.values
X=X[:,1:3]
n_samples=X
random_state=200
# X,y=make_blobs(n_samples=n_samples,random_state=random_state)
y_pred=KMeans(n_clusters=2,random_state=random_state).fit_predict(X)
plt.subplot(221)
plt.scatter(X[y_pred==0][:,0],X[y_pred==0][:,1],marker='x',color='b')
plt.scatter(X[y_pred==1][:,0],X[y_pred==1][:,1],marker='+',color='r')
plt.title("Two")