一、先看是不是这些“坑”
1. 数据瞎搞:数据里有异常值没处理?赶紧用箱线图或3σ法则揪出来。
2. 关系不对:X和Y根本不是直线关系,你非要用线性模型,R方能高才怪。先画散点图看看。
3. 缺关键变量:模型里漏了重要的影响因素,赶紧想想业务逻辑,补变量。
4. 多重共线性:自变量之间互相“抄袭”,导致结果不稳定。计算VIF(方差膨胀因子),大于10的就得处理(删除或合并)。
二、硬核调整技巧(照着做)
1. 加/删/改自变量
加:业务上觉得重要就加,试试多项式项(比如X²)、交互项(比如X1X2)。
删:用逐步回归(向前、向后、双向)或者LASSO回归,机器帮你选重要变量。
改:对X或Y做变换。常干的:取对数(ln)、开根号、取倒数。尤其是数据右偏(一堆小值+几个巨大值)时,取对数特好使。
2. 换模型
线性不行换曲线:试试多项式回归、指数回归。
数据分散换稳健:用稳健回归(比如Huber回归),不怕异常值捣乱。
关系复杂换树/集:决策树、随机森林、梯度提升,这些不挑关系,但解释性差点。
3. 分区/分层搞
数据如果分好几类,别混一起建模。按类别分开建,R方可能飙升。
三、记住这句口诀
“先看散点再定线,处理异常是关键,变量变换常灵验,模型不行赶紧换,业务逻辑是底线。”
四、别死磕R方
1. 有时候R方低但预测准,也行。重点看预测误差(RMSE、MAE)。
2. 尤其时间序列预测,R方经常低,看趋势准不准更重要。