核心条件就这5个,背熟不慌:
1. 线性关系
每个连续的自变量跟因变量得是直线关系。如果是分类变量(比如男女)那这条可以不要求。面试官问怎么检?画散点图或偏回归图看。
2. 误差独立
各个数据点的残差(实际值减预测值)之间不能有关系。比如时间序列数据最容易踩这个坑,因为今天的误差可能跟昨天的有关。
3. 误差正态
残差的分布要接近钟形正态曲线,但不是要求因变量本身正态。这块常考你:如果轻微偏离,对预测结果影响不大;但如果严重偏离,t检验和置信区间就全不准了。
4. 方差齐性
不同自变量取值下,残差的波动大小应该差不多。如果残差随着预测值增大而越来越散(喇叭形散点图),就是异方差,会导致回归系数估计不准。
5. 无多重共线性
几个自变量之间不能有太强的相关性。比如“年龄”和“工龄”这俩变量信息重叠,放一起就会让模型解释力下降,回归系数变得不稳定。
面试追问高频考点:
如果只是建模型看趋势,正态和方差齐性能稍微放宽;但要做预测和区间估计,就必须严格满足。