Python数据预处理(sklearn.preprocessing)—归一化
Published on Aug. 22, 2023, 12:02 p.m.
归一化 (Normalization):
常用的方法是将属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现。
preprocessing.MinMaxScaler()
标准化(Standardization):
将数据按比例缩放,使之落入一个小的特定区间内,标准化后的数据可正可负,一般绝对值不会太大。
preprocessing.scale(X)
使用sklearn.preprocessing.StandardScaler类
正则化:
正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果后面要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。
preprocessing.normalize(X, norm='l2')
preprocessing.Normalizer().fit(X) # fit does nothing