求问各位朋友 怎么筛选特征值 应该去掉哪个无关值啊 留下相关值继续进行算法模型
这个就得看你自己的需求了,设置 threshold 去除掉一些你认为无关的
不知道你这个问题是否已经解决, 如果还没有解决的话:四川方言自然对话语音数据集
近2000名四川本地发音人参与录制,录制时长约为800小时,以自然方式进行面对面交流,不限制话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。
河南方案自然对话语音数据集
近1000名河南本地发音人参与录制,录制时长约为500小时,以自然方式进行面对面交流,针对指定的多个话题进行自由发挥,领域广泛,语音自然流利,符合实际对话场景。人工转写文本,句准确率达95%,可应用于语音识别,声纹识别等任务。
抱歉,以上参考资料与问题不太相关,无法回答该问题。关于利用热力图来筛选特征值的问题,可以考虑使用相关性矩阵来实现。具体步骤如下:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import SimpleImputer
df = pd.read_csv('data.csv')
# 编码类别型数据
le = LabelEncoder()
df['gender'] = le.fit_transform(df['gender'])
df['income_level'] = le.fit_transform(df['income_level'])
# 填充缺失值
imp = SimpleImputer(strategy='median')
df = pd.DataFrame(imp.fit_transform(df), columns=df.columns)
import seaborn as sns
corr_matrix = df.corr()
sns.heatmap(corr_matrix)
# 假设目标变量为'y'
feature_to_drop = []
for col in corr_matrix.columns:
if col != 'y':
if corr_matrix.loc['y', col] < 0.2:
feature_to_drop.append(col)
df = df.drop(feature_to_drop, axis=1)
以上是基本的实现方法,还可以根据具体情况进行调整和优化。