普通线性回归、岭回归与Lasso回归

其实都是一样的
他们的区别在于损失函数不同:
线性回归:
岭回归:
上述公式为岭回归的损失函数,其中为正则化系数,为模型参数,为L2范数,用于控制模型复杂度。岭回归通过引入正则化项,可以解决特征之间存在高度相关性(多重共线性)的问题,从而提高模型的泛化能力。
Lasso回归:
线性回归不就好了吗?为什么还要岭回归和Lasso回归,这不是很作吗?
是这样,岭回归和Lasso回归有以下好处:
  1. 处理多重共线性:在普通线性回归中,如果特征之间存在高度相关性(多重共线性),会导致估计参数的不稳定性和过拟合。岭回归和LASSO回归通过引入正则化项来解决这个问题,从而稳定化参数估计。
  1. 自动特征选择:岭回归和LASSO回归都具有自动选择特征的能力,不需要手动进行特征选择。在普通线性回归中,特征选择可能需要依赖领域知识或特征重要性评估方法,而这些方法可能不如LASSO回归自动化和有效。
  1. 岭回归的好处:
      • 通过L2正则化项,可以限制回归系数的大小,避免出现过于大的参数估计,从而降低过拟合的风险。
      • 对于高维数据集,岭回归可以在保持较多特征的同时减少特征的权重,防止模型过于复杂,提高泛化性能。
  1. LASSO回归的好处:
      • 通过L1正则化项,可以使得某些回归系数变为零,从而实现了特征选择(feature selection)。这意味着LASSO回归可以将无关或冗余的特征自动排除,提高模型的解释性和泛化性能。
      • 适用于稀疏数据,可以更好地处理特征稀疏的情况。
接下来来个推导过程,以lasso回归为例,求解方法为梯度下降算法。
我们再带入到梯度下降算法的公式中:
其中r为学习率。我们给一个初始值,那么在这里,我们包括都是常数,因此可以求得迭代后的结果,这样反复迭代,知道不会产生大幅变化。例如当期<0.0001。
那么,我们就完成了学习。
模型评估与选择管理员手册
  • Twikoo
  • Utterance
心情随笔
量化
机器学习
爬虫
开发
Python
Javascript
社会常识
课程笔记
Stata
科研笔记