Python实现断点回归

一、参考文献

二、断点回归的基本原理

断点回归是一种‘准自然实验’式研究,其思想在于存在一个连续变量(驱动变量X,或分组变量,或处理变量),该变量某临界点cutoff处可拆分成左侧和右侧,进而研究该变量对于另一变量(结果变量Y,或因变量)的影响。比如高考时本科线为500分,那么有的学生好低于500分,有的弱高于500,但正是由于500这个cutoff断点值,导致学生是否能上本科,进而最终影响到学生以后的收入情况,此处高考成绩即为驱动变量X,收入则为结果变量Y。
上述的500分是一个非常明确的断点cutoff值,如果低于500分一定不能上本科,高于500分一定可以上本科,那么此类RDD模型则称为‘精确断点’(sharp regression discontinuity design, 简称SRD)。如果说有的学生有着‘特长加分项’,分数小于500分但正由于其有着‘特长加分项’因而上了本科,也或者有的学生高于500分但是其更愿意读了优秀的专科,此类情况时的断点回归研究,称作为‘模糊断点回归’(fuzzy regression discontinuity, 简称FRD),多数情况下研究均使用精确断点SRD;除此之外,RDD断点回归模型时有时还会加入到控制变量。
至于断点回归具体断点、带宽、模型的确定,我觉得是比较进阶的内容,暂时可以不学习。

三、小案例-断点回归的Python实现

本部分基本完全照搬Jupyter Notebook Viewer (nbviewer.org)
很有帮助
 
如何自动写周报 —— 表格篇为什么不要使用read_excel('path.csv',sheet_name = 0)?
  • Twikoo
  • Utterance
心情随笔
量化
机器学习
爬虫
开发
Python
Javascript
社会常识
课程笔记
Stata
科研笔记