代码的运行有一点小问题


import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn import preprocessing
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
# 读取含有热误差数据的CSV文件
train_file = open('data8.csv', encoding='utf-8')
train_df = pd.read_csv(train_file)
train_file = open('date18.csv', encoding='utf-8')
train_df = pd.read_csv(train_file)
# 读取测试集的含有热误差数据的CSV文件
test_file = open('data.csv', encoding='utf-8')
test_df = pd.read_csv(test_file)
 
# 对训练集进行数据预处理
X_train = train_df.iloc[:, :-1]
Y_train = train_df.iloc[:, -1]
X_train_scaled = preprocessing.scale(X_train)
 
# 对测试集进行数据预处理
X_test = test_df.iloc[:, :-1]
Y_test = test_df.iloc[:, -1]
X_test_scaled = preprocessing.scale(X_test, with_mean=X_train_scaled.mean(axis=0)[0], with_std=X_train_scaled.mean(axis=0)[0])
X = pd.concat([test_df.iloc[:, :-1], train_df.iloc[:, :-1]], axis=1)
Y = pd.concat([test_df.iloc[:, -1], train_df.iloc[:, -1]], axis=1)
X_test.columns = X_train.columns

# 创建决策树模型
dt = DecisionTreeRegressor()
 
# 定义网格搜索参数
param_grid = {
    'max_depth': [1,2,3,4,5,6,7,8,9],
    'min_samples_split': [2, 4, 6],
    'min_samples_leaf': [1, 2, 3]
}
# 进行网格搜索优化
grid = GridSearchCV(dt, param_grid, cv=5, error_score='raise')
grid.fit(X, Y)
grid_search = GridSearchCV(DecisionTreeRegressor(), param_grid, cv=5)
grid_search.fit(X_train, Y_train)
best_model = grid_search.best_estimator_


# 输出最优参数和模型得分
print('Best Parameters:', grid.best_params_)

# 定义新的温度数据

# 输出预测结果
Y_pred = best_model.predict(X_test)
mse = mean_squared_error(Y_test, Y_pred)
print(f"MSE: {mse:.4f}")
print(Y_pred)
X_test = pd.concat([X_train, X_test], axis=0, ignore_index=True)

下面的问题怎么解决

alueError: Input X contains NaN.
DecisionTreeRegressor does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values

该回答引用chatgpt:
该代码运行出现了ValueError: Input X contains NaN的错误，说明输入的X数据中存在NaN值，而DecisionTreeRegressor不支持包含NaN值的输入数据。解决方法有两种：

对数据进行预处理，填充或删除缺失值。
可以使用sklearn中的Imputer来填充缺失值。
可以使用dropna()方法来删除含有NaN值的行。
使用支持处理NaN值的模型，例如sklearn.ensemble.HistGradientBoostingClassifier和sklearn.ensemble.HistGradientBoostingRegressor。这些模型可以原生支持含有NaN值的输入数据

python调试三板斧 https://ask.csdn.net/questions/7908322/54130133

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7433424
你也可以参考下这篇文章：【汇总】小绿和小蓝中出现的代码来源考据
除此之外, 这篇博客: 【自然语言处理】常见的文本相似度计算方法中的 最小编辑距离 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
最小编辑距离是一种经典的距离计算方法，用来度量字符串之间的差异。它认为，将字符串A不断修改(增删改)、直至成为字符串B，所需要的修改次数代表了字符串A和B的差异大小。当然了，将A修改为B的方案非常多，选哪一种呢？我们可以用动态规划找到修改次数最小的方案，然后用对应的次数来表示A和B的距离。
您还可以看一下李月喜老师的企业微信开发第三方应用开发篇课程中的最小应用提审上线小节, 巩固相关知识点