数据的特征呈多峰状,所以试图采用高斯混合模型聚类。使用了AIC和BIC进行子模型数量的选择,但是AIC和BIC的值,一值在缩小,没有上升,因此找不到最小值,这是为什么呢,有什么改进的办法吗
聚类模型不合适,你换K-mean吧,在这之前,在特征选择等方面预处理下
不知道你这个问题是否已经解决, 如果还没有解决的话:最基础的一个模型拟合优度的检验量就是R square(方程的确定系数)。
已知一组样本观测值 (Xi,Yi)(X_i, Y_i)(Xi,Yi),其中i=1,2,3,…,n得到如下样本回归方程:
Yi^=β0^+β1^Xi \hat{Y_i} = \hat{\beta_0} + \hat{\beta_1}X_i Yi^=β0^+β1^Xi
而Y的第i个观测值与样本均值的离差 yi=Yi−Yˉy_i = Y_i - \bar{Y}yi=Yi−Yˉ,其可以分解为两部分之和:
yi=Yi−Yˉ=(Yi−Yi^)+(Yi^−Yˉ)=ei+yi^ y_i = Y_i - \bar{Y} = (Y_i - \hat{Y_i}) + (\hat{Y_i} - \bar{Y}) = e_i + \hat{y_i} yi=Yi−Yˉ=(Yi−Yi^)+(Yi^−Yˉ)=ei+yi^
其中 yi^=(Yi^−Yˉ)\hat{y_i} = (\hat{Y_i} - \bar{Y})yi^=(Yi^−Yˉ)是样本拟合值与观测值的平均值之差,可认为是由回归直线解释的部分,通常称之为"离差";
ei=(Yi−Yi^)e_i = (Y_i - \hat{Y_i})ei=(Yi−Yi^)是实际观测值与回归拟合值之差,是回归直线不能解释的部分,通常称之为"残差"。
如果 Yi=Yi^Y_i = \hat{Y_i}Yi=Yi^,即实际观测值落在样本回归"线"上,则拟合最好。
对于所有样本点,可以证明:
∑yi2=∑yi^2+∑ei2+2∑yi^2ei=∑yi^2+∑ei2 \sum{y_i}^2 = \sum{\hat{y_i}^2} + \sum{e_i^2} + 2\sum{\hat{y_i}^2e_i} = \sum{\hat{y_i}^2} + \sum{e_i^2} ∑yi2=∑yi^2+∑ei2+2∑yi^2ei=∑yi^2+∑ei2
记:
TSS=∑yi2=∑(Yi−Yˉ)2TSS = \sum{y_i^2} = \sum{(Y_i - \bar{Y})^2}TSS=∑yi2=∑(Yi−Yˉ)2为总体平方和(Total Sum of Squares)
ESS=∑yi^2=∑(Yi^−Yˉ)2ESS = \sum{\hat{y_i}^2} = \sum{(\hat{Y_i} - \bar{Y})^2}ESS=∑yi^2=∑(Yi^−Yˉ)2为回归平方和(Explained Sum of Squares, 注意有的教材又称之为Regression Sum of Squares)
RSS=∑ei2=∑(Yi−Yi^)2RSS = \sum{e_i^2} = \sum{(Y_i - \hat{Y_i})^2}RSS=∑ei2=∑(Yi−Yi^)2为残差平方和(Residual Sum of Squares, 注意有的教材又称之为Error Sum of Squares)
TSS=ESS+RSS TSS = ESS + RSS TSS=ESS+RSS
所以Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自与随机误差(RSS)
在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此定义拟合优度:回归平方和ESS与TSS的比值。
记 R2=ESSTSS=1−RSSTSSR^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS}R2=TSSESS=1−TSSRSS,称 R2R^2R2为(样本)可决系数/判定系数
对于回归方程来说,R2R^2R2有以下几个意义: