用pandas对数据进行预处理

这是一个评分表数据,

img

目前想的就是获得不重复的userId,然后下面这是别人的代码

import pandas as pd

DATA_PATH = 'C:/Users/leaf/Desktop/ml-latest-small/ratings.csv' # 矩阵分解所用的文件

dataType = [('userId', np.int32), ('movieId', np.int32), ('rating', np.float32)]
dataset = pd.read_csv(DATA_PATH, dtype=dataType, usecols=range(3))  # 读取csv文件

user_index = dataset.groupby('userId').agg([list])[[dataset.columns[1], dataset.columns[2]]].index

最后一行user_index就获得了不重复的userId,但是修改如下,得到的结果好像也是一样的啊

user_index = dataset.groupby('userId').agg([list]).index

所以原作者加上中间这部分是为了啥啊,不明白

[[dataset.columns[1], dataset.columns[2]]] 这句吗,只保留这两列,结果没什么影响,占用内存应该会小一点