x个样本,每个样本有20000个变量(数据矩阵20000*x)(20000>>x,因此无法用PCA),据此对x个样本进行多分类,无监督分类。
1.现在我的程序框架有了,但是涉及20000阶协方差矩阵,根本无法处理。初始化一个20000阶单位阵都做不到(内存溢出)。那么如何降阶呢?有没有现成的程序包,如何使用?
2.R有没有现成的ARI、NMI计算包,如何使用,对分类结果计算ARI、NMI?
可以尝试一下矩阵分解方法,R中应该有NMF包可以调用,也是一种很常用的降维方法。不知道x到底有多大,NMF不涉及计算协方差矩阵,原始矩阵能存下即可。如果原始矩阵也过大,可以使用这篇文章中的方法“Online Learning for Matrix Factorization and Sparse Coding”,不需要所有样本同时输入,应该可以实现正常降维。