薪资预测。一个包含约 40,000 条记录(职位、工作经验、公司、日程安排等)的数据集。R^2 估计约为 35-40%。我使用来自 sklearn 和交叉验证的回归器。
gb_reg = GradientBoostingRegressor(random_state=0, **params)
gb = cross_validate(gb_reg, X, y, cv=5, scoring=('r2',
'neg_mean_absolute_error'),
return_train_score=True)
是否有可能以某种方式显示列的值,真实的和预测的,以便了解模型到底哪里出错了?
像这样的东西: