Python爬虫与数据分析

利用 my_ocr_digits_all数据，做一个分类模型，可以利用sklearn的knn方法。看看识别的效果。

针对您提出的问题，以下是简要的步骤：

导入需要的包和数据

您需要导入 sklearn 包中的 train_test_split 和 KNeighborsClassifier 方法，以及 pandas 和 numpy 用于处理数据和矩阵运算。还需要导入 my_ocr_digits_all 数据，可以使用 pandas 的 read_csv 方法来加载数据。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 读取 CSV 文件并转换为 numpy 数组
data = pd.read_csv('my_ocr_digits_all.csv').to_numpy()

# 从数据中分离出特征和标签
X, y = data[:, :-1], data[:, -1]

划分训练集和测试集

将数据划分为训练集和测试集，以便验证模型的性能。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

在这里，我们将数据集分成了70%的训练集和30%的测试集。

创建模型并进行训练

使用 KNeighborsClassifier 创建一个 k-NN 分类器，并传递相应的参数。我们将 n_neighbors 参数设置为 5，表示每次分类时考虑数据集中距离待测样本最近的前五个样本。

knn = KNeighborsClassifier(n_neighbors=5)

# 使用训练集来训练模型
knn.fit(X_train, y_train)

评估分类器的性能

使用测试数据集评估模型的性能。通过比较预测结果和真实标签，计算出准确率。

# 使用测试集进行测试并计算准确率
accuracy = knn.score(X_test, y_test)

print(f"Accuracy: {accuracy:.2%}")

进行预测

现在，我们可以使用训练好的模型进行分类预测了。以下是一个示例，展示如何使用 knn 分类器预测第一张图像的数字。

# 预测第一张图像的标签
test_image = X_test[0].reshape(1, -1)
predicted_label = knn.predict(test_image)[0]

print(f"Predicted label: {predicted_label}")

总结

通过使用 k-NN 方法，并使用 my_ocr_digits_all 数据集，在 Python 中实现了一个手写数字分类器。我们将数据集分为训练集和测试集，然后使用 train_test_split 函数将其随机划分为两部分。接着，我们建立了 k-NN 分类器模型，并在训练集上训练它。最后，我们使用测试集对模型进行了精度评估，然后用它来进行预测。

不知道你这个问题是否已经解决, 如果还没有解决的话:

以下回答来自chatgpt:

首先，我们需要先了解一下这个问题中提到的数据 my_ocr_digits_all，它是一个手写数字的数据集，我们需要将这些手写数字进行分类，使得不同数字分别被归为不同的类别。这个问题可以被视为一个监督学习问题，我们可以使用 sklearn 中的 k 近邻算法来解决这个问题。

步骤1：数据预处理

我们首先需要对数据进行预处理，将图片数据转换为可用于分类的数据。具体来说，我们可以将每张图片转换为一个向量，即将每个像素点的灰度值作为向量的一个元素。这样我们就可以得到一个矩阵，其中每行表示一张图片的特征向量，每列表示一个像素点。代码如下：

import numpy as np
from PIL import Image

# 读取图片数据
images = []
targets = []
for i in range(10):
    for j in range(500):
        filename = f"my_ocr_digits_all/{i}_{j}.png"
        image = Image.open(filename).convert('L')
        images.append(np.array(image).flatten())
        targets.append(i)

# 转换为矩阵格式
X = np.array(images)
y = np.array(targets)

步骤2：数据集划分

我们需要将数据集分为训练集和测试集。训练集用于训练模型，测试集用于评估模型的性能。这里我们将80%的数据用于训练，20%的数据用于测试。代码如下：

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

步骤3：模型训练

我们使用 sklearn 中的 k 近邻算法进行分类。这里我们采用3个邻居进行分类。代码如下：

from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)

步骤4：模型评估

我们需要评估模型的性能，这可以通过计算准确率、精确率、召回率和 F1 分数等指标来完成。代码如下：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_pred = clf.predict(X_test)
print("准确率：", accuracy_score(y_test, y_pred))
print("精确率：", precision_score(y_test, y_pred, average='macro'))
print("召回率：", recall_score(y_test, y_pred, average='macro'))
print("F1分数：", f1_score(y_test, y_pred, average='macro'))

这里需要注意的是，由于我们是对手写数字进行分类，因此我们需要使用 macro 平均来计算精确率、召回率和 F1 分数。

完整代码：

import numpy as np
from PIL import Image
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 读取图片数据
images = []
targets = []
for i in range(10):
    for j in range(500):
        filename = f"my_ocr_digits_all/{i}_{j}.png"
        image = Image.open(filename).convert('L')
        images.append(np.array(image).flatten())
        targets.append(i)

# 转换为矩阵格式
X = np.array(images)
y = np.array(targets)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 模型训练
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)

# 模型评估
y_pred = clf.predict(X_test)
print("准确率：", accuracy_score(y_test, y_pred))
print("精确率：", precision_score(y_test, y_pred, average='macro'))
print("召回率：", recall_score(y_test, y_pred, average='macro'))
print("F1分数：", f1_score(y_test, y_pred, average='macro'))

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^