sklearn 中对于大数据集如何处理?

Published on Aug. 22, 2023, 12:10 p.m.

partial_fit增量式计算

https://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html

你也可以在 sklearn 测试多个分类器效果,但是目前适合增量学习(能够 partial_fit())的分类器有限制,参考6. Strategies to scale computationally: bigger data。

以下是不同任务的增量估计器列表:
https://scikit-learn.org/0.15/modules/scaling_strategies.html

分类
sklearn.naive_bayes.MultinomialNB
sklearn.naive_bayes.BernoulliNB
sklearn.linear_model.Perceptron
sklearn.linear_model.SGDClassifier
sklearn.linear_model.PassiveAggressiveClassifier
回归
sklearn.linear_model.SGDRegressor
sklearn.linear_model.PassiveAggressiveRegressor
聚类
sklearn.cluster.MiniBatchKMeans
分解/特征提取
sklearn.decomposition.MiniBatchDictionaryLearning
sklearn.cluster.MiniBatchKMeans
3

sklearn查看文档 中包含的扩展策略 :http://scikit-learn.org/stable/modules/scaling_strategies.html

这里提供了一个很好的例子:http://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html

dask-ml库

dask-ml库,它可以通过将dask数组与partial_fit. 链接网页上有一个示例。
https://ml.dask.org/incremental.html