基于时间的矩阵分解模型，如何chulinetflix数据集

我在根据项亮著作《推荐系统实践》第八章中的加入时间的矩阵分解模型做实验时，也就是timeSVD++。但是我遇到的问题是：数据集（2007年netflix比赛数据）如何处理。书上写的是把用户的评分时间从早到晚排序，取前90%作为训练集，后10%作为测试集。但是面对如此庞大的数据，还包括实验过程中要求每个用户的评分的平均时间、每个物品的评分的平均时间。这些涉及到大数据的预处理。本屌今年刚刚研一，没有数据挖掘的背景，也没有学过hadoop，实在想不出高效率的办法。希望大神能够相助