sparkmlcrossvalidator在选择了最佳的超参数组合后是否重新适应了完整的训练数据集？

vq8itlhq 于 2021-07-09 发布在 Spark

关注(0)|答案(0)|浏览(178)

在交叉验证训练数据集上的超参数网格之后，sparkml CrossValidator 重新适应整个训练数据集？如果不是，它从交叉验证的哪个部分选择 bestModel 用于推断？
合身的 CrossValidator 提供一个 .transform() 方法。对于这一点 CrossValidator 使用最佳超参数对整个训练/交叉验证数据集进行重新训练，并使用重新拟合的模型进行推理？
或者是 bestModel 用于从所有交叉验证折叠中推断最佳性能模型（即，从最佳性能超参数组合中的最佳折叠中推断的模型，仅针对该折叠的数据进行训练）？
我问这个问题是因为斯巴克马尔之间的表面相似性 CrossValidator 以及 scikit-learn 的 GridSearchCV . 如果传递参数 refit=True 至 GridSearchCV ，它将使用param网格中的最佳超参数对整个训练数据集进行重新拟合。然后使用在整个训练集上训练的重新拟合模型通过 .predict() 方法。
我已经阅读了python文档、scala文档以及显示超参数调优和交叉验证的示例。我找不到任何具体的参考资料。
在示例中，有以下注解： # Make predictions on test documents. cvModel uses the best model found (lrModel). 但从这一点来看，我们还不清楚它是最佳超参数组合中的最佳折叠，还是重新适合，一个la scikit学习。