如题所示,想问一下标准化是对整体数据进行标准化还是每输入一批就对这一批的数据标准化?
对训练数据进行标准化,然后用训练数据的标准化方式(比如训练集的最大最小值或者均值标准差) 对测试集进行标准化。 因为你未来预测的数据没法提前整体标准化,要用你训练模型 同样的方式进行标准化
从原理上说当然是对整体数据进行标准化。
在实际操作中,如果数据样本很大,且均匀分布,可以读取一部分数据进行标准化,得到标准化参数/方程。“均匀分布”意味着 读取的部分数据 均值和方差可以近似等于全体数据的分布。此后分批读取的数据,也要进行标准化,但还是使用之前获得的标准化参数/方程进行数据处理,而不是对该批数据独立地进行标准化。
如果数据样本很大,但不是均匀分布的,则需要从原来数据集中进行抽样,由抽样的数据集计算标准化参数/方程。
我感觉如果所有数据标准化的话,就需要把数据全部加载到内存进行标准化运算,内存很容易撑不住爆掉,请问有什么好方法吗?
标准化就是对数据进行无量纲化的处理,这样更容易计算特征与特征之间的关系,训练和测试集进行标准化后,传入的数据都要进行相应的处理
全部数据,李玉刚化。