一、概述
楼主是个机器学习初学者,最近遇到一个二分类任务,要求用机器学习方法解决,每条数据的维数非常高。没有什么好的思路,很苦恼,于是来问问。
二、具体问题
问题要求
根据如下提供的数据,利用机器学习方法进行二分类。方法没有限制(但最好能快点),但是大概至少要Accuracy和F1-Score达到0.6。
提供的数据
- 数据集:3527条数据,每条数据都有607500维的特征。
- 标签:3527个对应标签,标注为0或1(两类)。
三、楼主疑惑的问题
- 在这样的数据条件和要求下,用什么方法做最好呢?随机森林?SVM?
- 用什么方法降维好呢?感觉这个数据维数也太大了。
- 有什么什么库的方法可以很好解决上述问题呢
比较好奇特征维度为什么有这么多