sklearn怎么使用自己划分好的训练集和数据集?

逻辑回归实现鸾尾花三分类问题
要求必须使用已经划分好的数据集iris_train.data和iris_test.data,但是网上搜到的示例只有用train_test_split对整体数据集进行划分,怎么才能让X_train和X_test是自己的数据集呀?
谢谢了!

不需要用 train_test_split,直接把划分好的数据集作为 训练集进行训练就可以啊。

官方文档的案例:

>>> from sklearn.datasets import load_iris
>>> from sklearn.linear_model import LogisticRegression
>>> X, y = load_iris(return_X_y=True)
>>> clf = LogisticRegression(random_state=0).fit(X, y)
>>> clf.predict(X[:2, :])
array([0, 0])
>>> clf.predict_proba(X[:2, :])
array([[9.8...e-01, 1.8...e-02, 1.4...e-08],
       [9.7...e-01, 2.8...e-02, ...e-08]])
>>> clf.score(X, y)
0.97...

逻辑回归,算法的原理是不需要训练集、测试集,只是基于训练集进行训练,得到回归模型。
划分训练集、测试集,只是用来测试、评估回归结果。

如果你已经有了现成的train和test,那就不需要用train_test_split了。
看一下train_test_split的代码哈,X就是你的feature们,y是你的label们,test_size的意思是你的train和test的划分比例,比如下面这个代码的比例就是9份train,一份test。
输出呢就是X_train,X_test,y_train,y_test,这个顺序是不变的。
如果你想要X_train和X_test是自己的数据集,那之后建模的时候就用自己的数据集就可以了。与train_test_split么的关系。
但要注意哦,你的y也要和x们对应起来,别X_train、X_test是自己的,y_train,y_test是train_test_split出来的,这样数据对应不上的话是没法建模的。

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.1)

希望给你讲明白了,如果不懂再问哈。