scikit_learn 工具包提供了七个实验用的数据集 他们经常用来演示各算法的使用方法 基于其中的原味花数据集进行开算法自主实验

scikit_learn 工具包提供了七个实验用的数据集 他们经常用来演示各算法的使用方法 基于其中的原味花数据集进行开算法自主实验

  • 这篇文章讲的很详细,请看:scikit-learn 分类模型各种评估指标使用
  • 除此之外, 这篇博客: scikit-learn 常见使用方法中的 归一化(把数据按照指定范围缩放) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • from sklearn.datasets import load_iris
    from sklearn.preprocessing import MinMaxScaler
    
    # 获取鸢尾花数据集
    iris = load_iris()
    
    # 鸢尾花特征集
    x_train = iris["data"]
    
    # 实例化一个转换器类
    # feature_range 设置范围
    transfer = MinMaxScaler(feature_range=(2, 3))
    
    # 调用fit_transform
    data = transfer.fit_transform(x_train)
    print("归一化结果:\n", data)
    
  • 您还可以看一下 唐宇迪老师的Python数据分析(机器学习)经典案例实战课程中的 使用scikit-learn库建模小节, 巩固相关知识点
  • 以下回答由chatgpt基于相关博客总结生成:

    我可以回答这个问题。

    在 scikit_learn 工具包中提供的七个实验用的数据集如下:

    1. iris(鸢尾花)数据集,通常用来演示分类算法的使用方法。
    2. digits(手写数字)数据集,通常用来演示图像识别算法的使用方法。
    3. breast_cancer(乳腺癌)数据集,通常用来演示二分类算法的使用方法。
    4. wine(葡萄酒)数据集,通常用来演示分类算法的使用方法。
    5. diabetes(糖尿病)数据集,通常用来演示回归算法的使用方法。
    6. boston(波士顿房价)数据集,通常用来演示回归算法的使用方法。
    7. fetch_olivetti_faces(Olivetti 人脸)数据集,通常用来演示图像识别算法的使用方法。

    其中的原味花数据集可以进行许多算法自主实验,比如基于朴素贝叶斯分类算法的实验,具体步骤如下:

    1. 首先引入需要的模块:
    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    from sklearn.naive_bayes import GaussianNB
    from sklearn.metrics import accuracy_score
    
    1. 加载原味花数据集:
    iris = load_iris()
    X = iris.data
    y = iris.target
    
    1. 使用 train_test_split 函数将数据集分为训练数据集和测试数据集:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
    
    1. 基于朴素贝叶斯分类算法构建模型:
    model = GaussianNB()
    model.fit(X_train, y_train)
    
    1. 对测试数据集进行预测:
    y_pred = model.predict(X_test)
    
    1. 计算模型准确率:
    accuracy = accuracy_score(y_test, y_pred)
    print("模型准确率为:", accuracy)
    

    以上就是基于朴素贝叶斯分类算法的原味花数据集实验的具体步骤。