保存 ML 模型以供将来使用

2023-11-23

我正在将一些机器学习算法（如线性回归、逻辑回归和朴素贝叶斯）应用于一些数据，但我试图避免使用 RDD 并开始使用 DataFrame，因为RDD 速度较慢比 pyspark 下的数据帧（见图 1）。

我使用 DataFrames 的另一个原因是因为 ml 库有一个对于调整模型非常有用的类，它是交叉验证器这个类在拟合之后返回一个模型，显然这个方法要测试几个场景，然后返回一个拟合模型（具有最佳参数组合）。

我使用的集群不是很大，数据相当大，有些拟合需要几个小时，所以我想保存这个模型以便以后重用它们，但我还没有意识到如何，有什么我忽略的吗？

Notes:

mllib 的模型类有一个 save 方法（即天真的贝耶斯），但 mllib 没有 CrossValidator 并使用 RDD，所以我有预谋地避免使用它。
当前版本是spark 1.5.1。

火花2.0.0+

乍一看全部Transformers and Estimators实施MLWritable具有以下界面：

def write: MLWriter
def save(path: String): Unit

and MLReadable具有以下界面

def read: MLReader[T]
def load(path: String): T

这意味着您可以使用save将模型写入磁盘的方法，例如

import org.apache.spark.ml.PipelineModel

val model: PipelineModel
model.save("/path/to/model")

稍后阅读：

val reloadedModel: PipelineModel = PipelineModel.load("/path/to/model")

PySpark 中也实现了等效方法MLWritable / JavaMLWritable and MLReadable / JavaMLReadable分别：

from pyspark.ml import Pipeline, PipelineModel

model = Pipeline(...).fit(df)
model.save("/path/to/model")

reloaded_model = PipelineModel.load("/path/to/model")

SparkR提供write.ml / read.ml函数，但截至今天，这些与其他支持的语言不兼容 -SPARK-15572.

请注意，加载器类必须与存储的类相匹配PipelineStage。例如，如果您保存了LogisticRegressionModel你应该使用LogisticRegressionModel.load not LogisticRegression.load.

如果您使用 Spark

除了 Spark 特定方法之外，还有越来越多的库设计用于使用 Spark 独立方法保存和加载 Spark ML 模型。参见示例如何服务 Spark MLlib 模型？.

火花 >= 1.6

从 Spark 1.6 开始，可以使用以下命令保存模型save方法。因为几乎每一个model实施ML可写界面。例如，线性回归模型拥有它，因此可以使用它将模型保存到所需的路径。

火花

我相信你在这里做出了错误的假设。

一些操作DataFrames可以进行优化，与普通的相比，它可以提高性能RDDs. DataFrames提供高效的缓存，并且 SQLish API 可以说比 RDD API 更容易理解。

ML 管道非常有用，像交叉验证器或不同评估器这样的工具是任何机器管道中都必须具备的，即使上述这些都不是特别难在低级 MLlib API 之上实现，但最好准备好使用、通用且经过相对良好测试的解决方案。

到目前为止一切顺利，但存在一些问题：

据我所知，简单的操作DataFrames like select or withColumn显示与其 RDD 等效项相似的性能，例如map,
在某些情况下，与精心调整的低级转换相比，增加典型管道中的列数实际上会降低性能。您当然可以添加 drop-column-transformers 来纠正这个问题，
许多机器学习算法，包括ml.classification.NaiveBayes 只是简单的包装围绕其mllib API,
PySpark ML/MLlib 算法将实际处理委托给其 Scala 对应项，
最后但并非最不重要的一点是，即使很好地隐藏在 DataFrame API 后面，RDD 仍然存在

我相信最终通过 MLLib 使用 ML 会得到相当优雅的高级 API。您可以做的一件事是将两者结合起来创建自定义的多步骤管道：

使用机器学习来加载、清理和转换数据，
提取所需数据（参见示例提取标记点方法）并传递给MLLib算法，
添加自定义交叉验证/评估
save MLLib使用您选择的方法（Spark 模型或PMML)

这不是一个最佳解决方案，但在给定当前 API 的情况下，这是我能想到的最佳解决方案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparkmllib

apachesparkml