立即注册 登录
GameMale 返回首页

逸本万利的个人空间 https://www.gamemale.com/?682117 [收藏] [复制] [RSS]

日志

Heckman两阶段方法/模型简介

热度 32已有 582 次阅读2021-6-15 19:50 |系统分类:纯水(首页不显示)

Heckman两阶段模型解决的是样本选择偏差(sample selection bias)的问题。样本选择偏差指的是我们在回归方程中估计出的参数是基于那些被选择进样本了的数据点(或者说是能够观测得到的数据点)而得出的。如果说一个数据点(观测值)是不是被选择进样本是一个外生的、纯随机的事件,那么我们据此得出的参数并不会有偏差(bias——这个估计结果就不会有问题。

可是,一个数据点是不是能被选择进样本、或者说是不是能够被观测到,这个过程在很多时候并不是随机、外生的。比如说,就拿Wooldridge 教材中的一个经典例子来讲:研究者试图估计出受教育程度以及工作经验对于女职工工资的影响。在一个753名女性的大样本中,428名女性是有工作的,所以这项研究只能在这428名有工作(有收入)的样本中展开。那么问题来了:因为我们无法观测到那325个没有工作的样本中受教育程度以及经验对于收入的影响,并且一个人选择工作或不工作并非是随机的——人们会根据潜在的收入水平、自身条件、家庭情况、年龄等等因素综合来决定是否参加工作,于是,我们仅从那428个有工作的人身上找出的统计学结果将是有偏差的,因为样本的选择并非随机及外生的。    

Heckman两阶段模型的功能就是试图纠正这种偏差导致的估计偏误。第一阶段的模型,是一个包括全样本(753人)的Probit模型,用来估计一个人参加工作与否的概率。这里的因变量是二元的,表示是否参加工作;自变量是一些会影响个人决定工作与否的外生变量,比如其他收入来源、年龄、有几个未成年子女,等等。这些自变量类似工具变量——他们会影响个人是否参加工作的决策,但不太可能影响参加工作后的收入水平。然后根据这个Probit模型,我们为每一个样本计算出逆米尔斯比率Inverse Mills Ratio)。这个比率的作用是为每一个样本计算出一个用于修正样本选择偏差的值。

然后第二步,只需要在原来的回归方程——即对于428个有工作的样本,基于她们受教育程度和经验的回归中加入一个额外的自变量——逆米尔斯比率即可,然后估计出回归参数。

最后,观察在第二阶段方程中,逆米尔斯比率这个自变量的显著性。如果该变量不显著,则说明最一开始的回归方程并不具有样本选择偏差,研究者可以根据原来的系数来做出统计推断;但如果尼米尔比率这个参数是显著的,则说明样本选择偏差是存在的,研究者应当根据第二阶段方程里的回归系数来做出统计推断。

 Probit模型是一种非线性模型。服从正态分布。

最简单的probit模型就是指被解释变量Y是一个0,1变量,事件发生的概率是依赖于解释变量,即PY=1=f(X),也就是说,Y=1的概率是一个关于X的函数,其中f(.)服从标准正态分布。若f.)Logistic分布,则其为Logistic模型。

logit模型也叫Logistic模型,服从Logistic分布。probit模型服从正态分布。两个模型都是离散选择模型的常用模型。但logit模型简单直接,应用更广。

 

逆米尔斯比率是为了解决样本自选择问题;rho指相关系数,sigma指方差。

31

震惊

感谢

关心

加油

有爱

刚表态过的朋友 (31 人)

发表评论 评论 (1 个评论)

回复 识缘无情 2021-6-15 22:45
非原创内容请标注来源哦。或者设置仅自己可见

facelist

您需要登录后才可以评论 登录 | 立即注册

文字版|手机版|小黑屋|GameMale

GMT+8, 2024-4-28 13:37 , Processed in 0.023707 second(s), 14 queries , Redis On.

Copyright © 2013-2024 GameMale

All Rights Reserved.