刚接触python classification中用到 PCA作为preprocessing, 了解到PCA 的作用是降低维度以获取最重要的信息。 我的理解是比如一个dataset, 是100行*10列,前9列是feature,最后一列是target。设置pca 为4,想找出最重要的4个features。但对数据进行pca后,我不知道那9列中的哪4列是被pca认定为最重要影响的?
pca1=PCA(n_components=10)
scaled_transformed = pca.fit_transform(scaledData)
# Get principal components output
comps=np.round(pca.explained_variance_ratio_*100, decimals = 2)
print(comps)
主成分分析是对原来的因变量进行线性组合,将原本的空间投影到更低维度的空间。比如你这有9个变量,你设置4,最后得到的就是9个变量的4种线性组合方式,并不是从9个变量中挑选出4个。