向大神请教:数据分析中(逻辑回归,聚类,决策树等算法中),业务已经把可能有用的相关变量告知,那数据分析人员要从数据分析的角度来说的话如何在他们的基础上选取自变量呢?不同的算法中需要有不同的选取办法么?
变量应该就是你所分析的采集来的数据呀
有了相关变量则代入数学模型中进行训练分析,根据结果继续调整变量,或者模型参数
自变量的选取还是要根据具体解决而主要问题是什么,选择与问题直接相关的变量作为自变量,其余可以作为协变量或者无关变量,可以先进行简单的相关性分析,看看是那个变量相关性最显著。也可以用主成分分析。
tin:数值;分量(也称变量);你想改的数据
在数据分析中,针对不同的问题,需要采用不同的算法进行变量选择,当然采用多种算法所选择的变量也可能会又算不同,这个也就要结合经验来判断哪个算法选择的变量合适了
主成分分析降维,筛选自变量
1.如果不需要得到变量的名字,可以直接使用卷积神经网络自动筛选变量,当数据大时时间可能比较久。
2.如果需要得到确切的变量就必须要了解对应的业务流程,先选出对输出有影响的变量,然后再筛选出重要的。可以结合一些降维方法,像SVD,PCA这样的。
如果需要进行变量筛选就选择全部相关的采集变量,可以查阅具有较高影响因子的相关专业文献看别人如何做的。