使用 5 折交叉验证,最后一次拆分时的回归准确度(确定系数 r^2)较低。
这是什么意思?在对整个数据集进行训练时,训练质量会下降吗?还是没关系?
值:0.29、0.05、0.36、0.18、-1.31
平均值:-0.08346647029663619 这些是工资上限输出列的值(那里的数据不如下限,因为它经常被省略) 在下限 r2 约为 48%,这非常适合我。
是否值得用这样的值进行训练,以便进一步使用不是在整个数据集上,而是在数据集的第 1 部分和第 3 部分上,准确率更高的地方?
数据集 - hh.ru 的职位空缺。目标是工资预测。
37,000条记录,29列:经验、关键技能、职位、雇主、上下限薪、专业、专业领域(这些字段用标签编码进行编码);城市(基洛夫、莫斯科、圣彼得堡)、日程安排和就业类型以一种热编码方式编码。
数据未缩放,因为梯度提升对缩放不敏感。模型的复杂度应该足够了,在训练数据集上,准确率在 70-80% 左右。如果我理解正确,模型会被重新训练。
数据集链接:https ://drive.google.com/file/d/1QJZAYyXIXcrMgzet8SUC31MzV5dHODcv/view?usp=sharing