大量分类数据的降维问题

有大量的二分类和等级分类指标,需要进行降维处理以进行建模和拟合,lasso回归处理结果不理想,请问还有哪些方法可以用?最好是能R语言实现的。谢谢!

深度神经网络(DNN),自动编码机,支持向量机(SVM),决策森林。

先弄清楚你要降哪个维度, 比如说这里有 n条数据,每个数据有m个特征。如果你要降m那肯定是PCA,他会把变化差不多的特征合并,这样特征的维度就下来了。

如果你要降m,这里有两说,首先你不用使用全部的数据啊,你只需要哪出一部分来拟合就行了,svm和拟合都是泛华能力很强的二分方法,所以只需每次抽一点数据进行训练就行了。
如果你追求分类效果,级联分类器tree和boost这种最适合,当然繁华能力就弱多了,所以你最好是把所有的数据都用来训练。
cnn深度学习这种适合图像语音这种特征比较多的信号,如果你的特征(m)不大(几十~~几百)的话可以考虑去看看GDBT和LigthGBM这两个是比较高端一点的树分类。

还有,补充一下,你可以先对数据做聚类,然后每一类中挑出一部分数据来训练,这样也能达到降维的数据。

R语言不清楚啊,matlab用的多......

主成分分析是用来降维度的,原理是矩阵的奇异值分解,把奇异值高的部分留下作为主成分,小的部分视为0即可。