何时使用zscore规范化数据(剥离之前或之后)

ttp71kqs  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(527)

我参加了一个udemy课程,该课程为仅规范化列车数据(从测试数据中分离后)提供了强有力的理由,因为模型通常由新数据使用,具有原始数据集的比例特征。如果你缩放了测试数据,那么你就没有正确地给模型打分。
另一方面,我发现我的两类logistic回归模型(用azure机器学习工作室创建)在z-score只缩放火车数据后得到了糟糕的结果。
答。这仅仅是azure工具的问题吗?b。当需要缩放特征数据时(一个、两个或三个数量级的差异),什么是好的经验法则?

qncylg1j

qncylg1j1#

由于标准化测试集而没有正确地对模型进行评分似乎是没有意义的:您可能还将标准化用于未来预测的数据。
我在datascience stackexchange中发现了一个类似的问题,上面的答案表明,不仅测试数据必须标准化,还需要应用与训练数据完全相同的缩放比例,因为您的模型还考虑了数据的比例:不同比例的测试/预测数据可能会导致特征的过度/过度夸张。

相关问题