热力图筛选特征值 求解!

求问各位朋友 怎么筛选特征值 应该去掉哪个无关值啊 留下相关值继续进行算法模型

img

这个就得看你自己的需求了,设置 threshold 去除掉一些你认为无关的

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 这个问题的回答你可以参考下: https://ask.csdn.net/questions/7511495
  • 你也可以参考下这篇文章:关于深度学习中概念【训练集】【验证集】【测试集】【参数】【超参数】的理解
  • 除此之外, 这篇博客: 【好数推荐】自然对话语音数据集来啦!中的 方言自然对话语音数据集 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    四川方言自然对话语音数据集

    近2000名四川本地发音人参与录制,录制时长约为800小时,以自然方式进行面对面交流,不限制话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。

    河南方案自然对话语音数据集

    近1000名河南本地发音人参与录制,录制时长约为500小时,以自然方式进行面对面交流,针对指定的多个话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。

  • 您还可以看一下 魏老师老师的从零搭建英伟达平台远程开发调试环境课程中的 远程启动需要图形解码的应用程序以及开机启动部署小节, 巩固相关知识点
  • 以下回答来自chatgpt:

    抱歉,以上参考资料与问题不太相关,无法回答该问题。关于利用热力图来筛选特征值的问题,可以考虑使用相关性矩阵来实现。具体步骤如下:

    1. 导入数据并做数据预处理,将类别型数据进行编码操作,缺失值进行填充操作。
    import pandas as pd
    import numpy as np
    from sklearn.preprocessing import LabelEncoder
    from sklearn.impute import SimpleImputer
    
    df = pd.read_csv('data.csv')
    # 编码类别型数据
    le = LabelEncoder()
    df['gender'] = le.fit_transform(df['gender'])
    df['income_level'] = le.fit_transform(df['income_level'])
    # 填充缺失值
    imp = SimpleImputer(strategy='median')
    df = pd.DataFrame(imp.fit_transform(df), columns=df.columns)
    
    1. 计算相关性矩阵并可视化成热力图。
    import seaborn as sns
    
    corr_matrix = df.corr()
    sns.heatmap(corr_matrix)
    
    1. 观察热力图,找出与目标变量相关性较高的特征,筛选掉相关性较低的特征。
    # 假设目标变量为'y'
    feature_to_drop = []
    for col in corr_matrix.columns:
        if col != 'y':
            if corr_matrix.loc['y', col] < 0.2:
                feature_to_drop.append(col)
    df = df.drop(feature_to_drop, axis=1)
    

    以上是基本的实现方法,还可以根据具体情况进行调整和优化。


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^