如何将数据集划分为训练集和测试集?

bqf10yzr  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(447)

我尝试使用朴素贝叶斯分类算法和map-reduce框架对数据集进行分类。我的问题是如何将数据集划分为训练集和测试集,以计算正确和错误分类示例的准确性?

fkvaft9z

fkvaft9z1#

你可以用 RemovePercentage 筛选训练集:1。加载完整的数据集2。在预处理面板3中选择removepercentage过滤器。为拆分4设置正确的百分比。涂抹滤清器5。将生成的数据另存为新文件
测试集:1。加载完整的数据集(或者只使用undo恢复对数据集的更改)2。如果尚未选定,请选择removepercentage筛选器3。将invertselection属性设置为true 4。涂抹滤清器5。将生成的数据另存为新文件

相关问题