python—为了训练一个好的模型,我应该规范化哪些数据?

vsmadaxz  于 2021-08-20  发布在  Java
关注(0)|答案(1)|浏览(275)

**已关闭。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想要改进此问题?**更新问题,使其位于堆栈溢出主题上。

昨天关门了。
改进这个问题
我正在试验机器学习回归器,我使用的数据集train.csv来自以下网页:https://www.kaggle.com/c/rossmann-store-sales/data?select=train.csv
我试着训练svr,但需要花很多时间来适应,所以我意识到问题可能是因为我没有标准化数据。
我知道通常的做法是规范化列,但我不确定应该将其应用于哪些列。有一些二进制变量和一些连续变量,我觉得规范化二进制变量会很奇怪。这是正确的吗?
表列如下所示:

公开、促销和学校假期是二元的。stateholiday可以取0到4之间的值。其他值是整数(日期除外)。

m2xkgtsf

m2xkgtsf1#

Store , DayOfWeek , Open , Promo , StateHoliday , SchoolHoliday 是分类特征。可以使用以下方法将它们编码为一个热编码向量: OneHotEncoder . Sales , Customers 是数字特征,可以进行编码,例如 StandardScaler , RobustScaler
有关其他转换,请参见此处的scikit学习预处理文档。

相关问题