sklearn 中对于大数据集如何处理?
Published on Aug. 22, 2023, 12:10 p.m.
partial_fit增量式计算
https://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html
你也可以在 sklearn 测试多个分类器效果,但是目前适合增量学习(能够 partial_fit())的分类器有限制,参考6. Strategies to scale computationally: bigger data。
以下是不同任务的增量估计器列表:
https://scikit-learn.org/0.15/modules/scaling_strategies.html
分类
sklearn.naive_bayes.MultinomialNB
sklearn.naive_bayes.BernoulliNB
sklearn.linear_model.Perceptron
sklearn.linear_model.SGDClassifier
sklearn.linear_model.PassiveAggressiveClassifier
回归
sklearn.linear_model.SGDRegressor
sklearn.linear_model.PassiveAggressiveRegressor
聚类
sklearn.cluster.MiniBatchKMeans
分解/特征提取
sklearn.decomposition.MiniBatchDictionaryLearning
sklearn.cluster.MiniBatchKMeans
3
sklearn查看文档 中包含的扩展策略 :http://scikit-learn.org/stable/modules/scaling_strategies.html
这里提供了一个很好的例子:http://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html
dask-ml库
dask-ml库,它可以通过将dask数组与partial_fit. 链接网页上有一个示例。
https://ml.dask.org/incremental.html