关于#数据挖掘#的问题:使用了AIC和BIC进行子模型数量的选择,但是AIC和BIC的值,因此找不到最小值(语言-python)

数据的特征呈多峰状,所以试图采用高斯混合模型聚类。使用了AIC和BIC进行子模型数量的选择,但是AIC和BIC的值,一值在缩小,没有上升,因此找不到最小值,这是为什么呢,有什么改进的办法吗

img

聚类模型不合适,你换K-mean吧,在这之前,在特征选择等方面预处理下

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 请看👉 :python算法指标:AIC和BIC
  • 除此之外, 这篇博客: AIC和BIC相关知识中的 1. 模型拟合优度检验 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    最基础的一个模型拟合优度的检验量就是R square(方程的确定系数)。
    已知一组样本观测值 (Xi,Yi)(X_i, Y_i)(Xi,Yi),其中i=1,2,3,…,n得到如下样本回归方程:
    Yi^=β0^+β1^Xi \hat{Y_i} = \hat{\beta_0} + \hat{\beta_1}X_i Yi^=β0^+β1^Xi
    而Y的第i个观测值与样本均值的离差 yi=Yi−Yˉy_i = Y_i - \bar{Y}yi=YiYˉ,其可以分解为两部分之和:
    yi=Yi−Yˉ=(Yi−Yi^)+(Yi^−Yˉ)=ei+yi^ y_i = Y_i - \bar{Y} = (Y_i - \hat{Y_i}) + (\hat{Y_i} - \bar{Y}) = e_i + \hat{y_i} yi=YiYˉ=(YiYi^)+(Yi^Yˉ)=ei+yi^
    其中 yi^=(Yi^−Yˉ)\hat{y_i} = (\hat{Y_i} - \bar{Y})yi^=(Yi^Yˉ)是样本拟合值与观测值的平均值之差,可认为是由回归直线解释的部分,通常称之为"离差";

    ei=(Yi−Yi^)e_i = (Y_i - \hat{Y_i})ei=(YiYi^)是实际观测值与回归拟合值之差,是回归直线不能解释的部分,通常称之为"残差"。

    如果 Yi=Yi^Y_i = \hat{Y_i}Yi=Yi^,即实际观测值落在样本回归"线"上,则拟合最好。

    对于所有样本点,可以证明
    ∑yi2=∑yi^2+∑ei2+2∑yi^2ei=∑yi^2+∑ei2 \sum{y_i}^2 = \sum{\hat{y_i}^2} + \sum{e_i^2} + 2\sum{\hat{y_i}^2e_i} = \sum{\hat{y_i}^2} + \sum{e_i^2} yi2=yi^2+ei2+2yi^2ei=yi^2+ei2
    记:
    TSS=∑yi2=∑(Yi−Yˉ)2TSS = \sum{y_i^2} = \sum{(Y_i - \bar{Y})^2}TSS=yi2=(YiYˉ)2为总体平方和(Total Sum of Squares)
    ESS=∑yi^2=∑(Yi^−Yˉ)2ESS = \sum{\hat{y_i}^2} = \sum{(\hat{Y_i} - \bar{Y})^2}ESS=yi^2=(Yi^Yˉ)2为回归平方和(Explained Sum of Squares, 注意有的教材又称之为Regression Sum of Squares)
    RSS=∑ei2=∑(Yi−Yi^)2RSS = \sum{e_i^2} = \sum{(Y_i - \hat{Y_i})^2}RSS=ei2=(YiYi^)2为残差平方和(Residual Sum of Squares, 注意有的教材又称之为Error Sum of Squares)
    TSS=ESS+RSS TSS = ESS + RSS TSS=ESS+RSS
    所以Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自与随机误差(RSS)

    在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此定义拟合优度:回归平方和ESS与TSS的比值。

    R2=ESSTSS=1−RSSTSSR^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS}R2=TSSESS=1TSSRSS,称 R2R^2R2为(样本)可决系数/判定系数

    对于回归方程来说,R2R^2R2有以下几个意义:

    1. R square可以作为选择不同模型的标准。在拟合数据之前,不能确定数据的确定模型关系,可以对变量的不同数学形式进行拟合,再看R square的大小。
    2. 在数据的关系存在非线性可能情况下:
      a) R squared越大不一定拟合越好;
      b) 如何一个模型的R square很小,不一定代表数据之间没有关系,而很有可能是选择的模型不对,或者存在有其他的函数关系。
    3. 当自变量个数增加时,尽管有的自变量与的线性关系不显著,其R square也会增大,对于这种情况需采用Adjusted R squared进行调整。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^