用pandas对数据进行预处理

这是一个评分表数据，

目前想的就是获得不重复的userId，然后下面这是别人的代码

import pandas as pd

DATA_PATH = 'C:/Users/leaf/Desktop/ml-latest-small/ratings.csv' # 矩阵分解所用的文件

dataType = [('userId', np.int32), ('movieId', np.int32), ('rating', np.float32)]
dataset = pd.read_csv(DATA_PATH, dtype=dataType, usecols=range(3))  # 读取csv文件

user_index = dataset.groupby('userId').agg([list])[[dataset.columns[1], dataset.columns[2]]].index

最后一行user_index就获得了不重复的userId，但是修改如下，得到的结果好像也是一样的啊

user_index = dataset.groupby('userId').agg([list]).index

所以原作者加上中间这部分是为了啥啊，不明白

[[dataset.columns[1], dataset.columns[2]]] 这句吗，只保留这两列，结果没什么影响，占用内存应该会小一点

你可以参考下这篇文章：Pandas处理数据遇到的问题与解决