邹长明转自中文网
内容摘要:本文利用2008年中国城市、农村和流动人口居民收入调查数据,分析辍学对流动人口收入的影响。为解决辍学的自选择问题,采用倾向得分匹配方法进行估计,根据不同匹配方法得出的结果表明,辍学使得流动人口收入平均减少14.8%。同时从东部地区到西部地区辍学的负面影响逐渐减小。从长远来看,高辍学率会对收入带来负面影响。为降低辍学率,应加大教育基础设施建设,提高教育质量,重点加大对中、西部地区的教育投入,提高市场对高素质劳动力的需求。
关键词:辍学;流动人口收入;倾向得分匹配
中图分类号:F323.6 文献标识码:A 文章编号:1004-7794(2016)05-0051-06
DOI:10.13778/j.cnki.11-3705/c.2016.05.010
一、引言
2013年国家审计署调查的1155所学校数据表明,全国辍学人数由2006年的3963人上升到2011年的8352人,增加了1.1倍。蔡昉指出2011年与2006年相比,农村初中辍学率提高1.6倍[1],而部分偏远地区的辍学率更高达50%以上,这表明我国义务教育的普及程度还未达到预期水平,辍学率居高不下。
以往调查表明,农村辍学率高是拉低义务教育普及率的主要原因,而大部分辍学学生在放弃学业的同时选择外出打工,因此流动人口是高辍学率的主要人群。学生放弃学业选择外出打工的直接原因是预期教育带来的收入回报过低,而外出打工将获得更高的收入回报[2],因此做出辍学的决定。那么从长远的角度来看,辍学是否会带来预期的高收入呢。
从现有文献来看,少有学者将注意力放在辍学对收入的影响上,大部分研究集中在如何解释居高不下的辍学率,包括经济、心理、教育、社会文化、社会公平等各个角度。其一是经济方面的原因,成本与收益是否对等是个体做决定时考虑的关键因素[3-4],因此,教育费用、家庭收入、未来预期收入都会影响到是否辍学;其二是心理方面的原因,由于教师歧视、课程设置等原因引起的厌学心理一直是辍学的重要因素[5-6];其三是教育方面的原因,Philip H.Brown[7]认为离学校的距离、教育费用、教室是否漏雨等因素都会影响中国农村儿童在校年数,同时国家教育支出、学校建设情况、课程设置、教师数量与质量都是不可忽略的因素[8-9];其四是社会方面的因素,同辈群体辍学,父母外出打工以及底层农村人群的认知图式等引起的辍学现象不容小视[10-11]。
本文的关注点在于辍学对收入的影响,此类研究最常用的方法是多元线性回归,在控制其他协变量的情况下分析辍学对收入的影响,但辍学是一个自选择过程,经济、教育等各方面因素都会影响辍学这一选择,由此带来内生性问题。对于自选择问题,常用的解决方法包括自然实验、双重差分、倾向得分匹配等。
二、数据来源与变量定义
本文中选取的数据主要有两个来源,其一是个体层面的数据,来自于2008年CHIP ① 数据,该数据分为流动人口数据、城镇和农村人口数据,其中城镇和农村人口数据采集由国家统计局完成,流动人口数据采集由调查公司执行。本文的主要研究对象为流动人口,因此数据来源于其中的流动人口数据。其二为城市层面的数据,该数据来源于1990—2010年《中国城市年鉴》和《中国统计年鉴》,其中包括各城市的经济、教育等各方面数据。
本文将未完成9年义务教育的样本,即辍学个体,设为处理组,完成9年义务教育的样本设为控制组,同时只包括目前有收入来源的个体,删除缺失变量,最终得到的有效样本个数为657 ,其中处理组样本个数为138,控制组样本个数为519。收入变量定义为流动人口月平均总收入,包括工资收入与自营收入。
本文对收入进行下列调整。首先由于所选取的样本并非来自全国各地,因此根据数据分层抽样方法,利用权重对样本进行调整[12],使样本具有全国范围内的代表性;其次不同地区的消费水平差异较大,因此根据不同城市的消费水平,由城市地区生活支出价格指数对收入再次进行调整,以此矫正样本收入变量的偏差。
倾向得分匹配模型中倾向得分的估计需要寻找所有对辍学有影响的协变量。根据以往对辍学原因文献的分析,得出相关影响因素具体见表1。
表1 影响辍学的因素 | ||||||
个体 | 地区 | |||||
经济 | 教育
成本 |
义务教育学杂费 | 人均GDP | 经济发展水平 | ||
住宿费 | 第三产业就业人口比重 | |||||
生活费 | 非农业人口比重 | |||||
机会
成本 |
家中是否有老人 | 农村居民家庭人均平均纯收入 | ||||
家中是否有耕地 | 政府教育支出比重 | 教育投入 | 教育
因素 |
|||
收入 | 家庭总收入 | 中等学校数量 | ||||
家庭兄弟姐妹个数 | 中等教育毕业生占比 | |||||
收入
预期 |
对文凭回报的预期 | 中小学教职工人数 | 教师因素 | |||
对城市打工收入的预期 | 专职教师比例 | |||||
心理 | 外部
原因 |
教学课程设置是否合理 | 中等教育师生比 | |||
教师是否对学生歧视 | 小学课程与初中课程衔接度 | 课程设置 | ||||
内部
原因 |
学习成绩 | 内容是否偏深偏难 | ||||
是否曾经留级 | 中等学校校舍建设情况 | 教育质量 | ||||
是否喜欢冒险 | 学校硬件设施配备 | |||||
是否厌学 | 学校距离村庄远近 | |||||
社会 | 同辈
群体 |
同行外出打工人数 | 中等学校辍学比例 | 社会 | ||
城市中是否有认识的朋友 | ||||||
亲属 | 是否全家人外出打工 | 父母外出打工比例 | ||||
城市中是否有认识的亲属 | ||||||
三、倾向得分匹配法
在分析辍学对收入的影响中,辍学会影响收入,同时对收入的预期又会影响辍学,辍学的自选择性使得一般的多元回归存在内生性问题,为解决自选择带来的内生性问题,本文用倾向得分匹配 [13]来解决这一问题。
这一方法的核心思想在于,如果能够使得处理组与控制组的样本具有“随机性”,即样本进入处理组还是控制组是一个随机的过程,那么两组间平均收入之差即为平均处理效应。为保证“随机性”,本文对样本进行倾向得分估计,即通过降维使得大量协变量的信息综合反映在倾向得分中,对处理组与控制组中倾向得分值接近的个体进行匹配,匹配后的个体在协变量分布方面具有较高的一致性,从而在两组协变量分布差异不大的情况下,认为个体做出是否辍学的选择是个随机事件,即具有“随机性”。此时,平均处理效应的估计如下:
其中,D=1表示处理组,D=0表示控制组,X为与D有关的协变量,Y为收入。
四、倾向得分匹配模型估计
(一)倾向得分估计
为了使控制组与对照组的样本具有“随机性”,需要估计出样本的倾向得分,根据倾向得分进行配对使其具有可比性。因此,本文首先用Probit模型估计倾向得分。根据之前的分析,影响辍学的因素可以根据个体层面与城市层面进行分类,每一类中有包括经济、心理、教育、社会几方面的因素。倾向得分匹配模型的估计强调要将尽可能多的相关协变量纳入模型中来,否则模型估计结果有偏。由此倾向得分估计模型如下:
其中,D=1表示个体辍学,X表示一系列影响做出辍学选择的协变量, β为回归系数。根据式(2)得到系数估计结果,见表2。根据模型估计结果,进一步用模型拟合出倾向得分(即样本辍学概率)。从表2中可以看出,大部分变量回归系数显著,说明所选变量对是否辍学有影响。模型拟合度Pseudo R2为0.354,拟合效果较好。
表2 协变量描述统计及系数估计(样本量为657) | ||||||
变量 | 均值 | 标准误 | 最小值 | 最大值 | 回归系数 | 标准差 |
年龄 | 32.770 | 11.371 | 16 | 69 | 0.048*** | 0.007 |
是否汉族 | 0.996 | 0.064 | 0 | 1 | -1.387* | 0.824 |
性别 | 0.434 | 0.495 | 0 | 1 | -0.008 | 0.125 |
家中兄弟姐妹个数 | 2.243 | 1.676 | 0 | 1 | 0.104*** | 0.036 |
是否农村户口 | 0.942 | 0.233 | 0 | 1 | 0.813** | 0.394 |
是否喜欢冒险 | 0.296 | 0.457 | 0 | 1 | -0.175 | 0.144 |
在校期间学习水平 | 0.762 | 0.426 | 0 | 1 | 0.144 | 0.156 |
是否曾经留级 | 0.113 | 0.316 | 0 | 1 | 0.106 | 0.203 |
是否因贫困外出打工 | 0.245 | 0.430 | 0 | 0.369** | 0.174 | |
是否因预期期望而外出打工 | 0.545 | 0.498 | 0 | 1 | -0.343** | 0.168 |
是否全家在外 | 0.022 | 0.148 | 0 | 1 | 0.390 | 0.390 |
在外打工同学人数 | 1.966 | 4.135 | 0 | 40 | -0.013 | 0.017 |
是否有朋友在城市 | 0.361 | 0.480 | 0 | 1 | -0.064 | 0.160 |
是否有亲戚在城市 | 0.359 | 0.480 | 0 | 1 | 0.077 | 0.155 |
城乡预期收入差 | -906 | 1952 | -9000 | 2000 | 4.63e-06 | 2.59e-05 |
是否东部地区 | 0.138 | 0.345 | 0 | 1 | 7.854** | 3.979 |
是否西部地区 | 0.396 | 0.489 | 0 | 1 | 1.314 | 1.823 |
第三产业就业人口比重 | 0.54 | 0.044 | 0.320 | 0.609 | 4.167 | 3.332 |
中学阶段生师比 | 0.056 | 0.027 | 0.041 | 0.462 | -61.18* | 31.78 |
中学阶段毕业生比例 | 0.644 | 0.149 | 0.472 | 0.832 | -4.919 | 4.382 |
农村居民家庭人均年纯收入 | 2274 | 860 | 1892 | 6086 | -0.004** | 0.002 |
人均GDP | 6892 | 5173 | 4784 | 39745 | 0.000*** | 0.000 |
政府教育支出比例 | 0.156 | 0.020 | 0.090 | 0.198 | -41.500 | 38.553 |
非农业人口比重 | 0.571 | 0.282 | 0.213 | 0.802 | 6.901 | 6.276 |
(二)支撑性检验
倾向得分匹配方法的效果与协变量倾向得分的共同支撑域有关。共同支撑域是指处理组与控制组倾向得分估计值的重叠域,重叠程度越高,匹配的效果越好[14]。因此,在做倾向得分匹配之前,笔者会删去处理组和控制组中倾向得分极端值的个体,使得两组倾向得分的最大值与最小值相同。根据该要求,本文删去处理组中的2个样本,对总体样本个数影响不大,在保证样本量的同时,又提高了匹配效果。
(三)平衡性检验
根据样本的倾向得分估计值,可以对处理组与控制组进行匹配。高效的匹配要求匹配后处理组与控制组各协变量之间无显著差异,因此需要对匹配后的结果进行平衡性检验。检验主要从两个方面来体现匹配效果。一方面是各协变量的匹配效果检验,主要从偏差降低比率、双t检验t值等方面体现;另一方面是协变量整体匹配效果检验,通过联合检验的P值可以体现。
平衡性检验结果见表3,其中U表示未匹配,M表示匹配后。首先,从单个协变量检验结果来看,大部分协变量偏差降低比率在70%以上,说明匹配后处理组与对照组各协变量之间差异程度大幅度减小。双t检验p值基本在0.5以上,无法拒绝原假设,说明处理组与对照组各协变量之间无显著差异。接着,从整体协变量联合检验结果来看,匹配后p值接近1,因此联合检验同样说明匹配后协变量整体分布一致。综合以上两方面的结果,可以说明倾向得分匹配的效果较好。
表3 匹配前后协变量平衡性检验 | ||||||||||||
变量 | 是否匹配 | 偏差降低比率 | 双t检验t值 | 双t检验p值 | 变量 | 是否匹配 | 偏差降低比率 | 双t检验t值 | 双t检验p值 | |||
性别 | U |
24.5 |
0.33 | 0.74 | 是否有朋友
在城市 |
U | -2.4 | 0.016 | ||||
M | 0.19 | 0.846 | M | 79.2 | -0.41 | 0.679 | ||||||
年龄 | U | 8.45 | 0 | 是否有亲戚
在城市 |
U | 2.38 | 0.018 | |||||
M | 80.8 | 1.17 | 0.243 | M | 78.5 | 0.39 | 0.7 | |||||
是否汉族 | U | -1.98 | 0.048 | 城乡预期
收入差 |
U | -0.82 | 0.415 | |||||
M | 75.9 | -0.32 | 0.747 | M | 5.5 | -0.4 | 0.692 | |||||
家中兄弟姐妹
个数 |
U | 91.5 | 4.37 | 0.000 | 是否东部地区 | U | -0.48 | 0.633 | ||||
M | 0.28 | 0.777 | M | -54.9 | 0.64 | 0.521 | ||||||
是否农村户口 | U | 94.6 | 2.24 | 0.026 | 是否西部地区 | U | -1.74 | 0.082 | ||||
M | -0.18 | 0.857 | M | 98.4 | -0.02 | 0.982 | ||||||
是否喜欢冒险 | U | -2.44 | 0.015 | 第三产业就业
人口比重 |
U | 3.92 | 0.000 | |||||
M | 74.7 | -0.52 | 0.603 | M | 76.7 | -0.61 | 0.541 | |||||
在校期间学习
水平 |
U | 2.08 | 0.038 | 中学阶段
生师比 |
U | -2.21 | 0.028 | |||||
M | 93.3 | -0.12 | 0.903 | M | 91.9 | 0.35 | 0.73 | |||||
是否曾经留级 | U | 0.31 | 0.759 | 中学阶段
毕业生比例 |
U | 3.51 | 0.000 | |||||
M | 64 | 0.08 | 0.934 | M | 93.7 | -0.16 | 0.874 | |||||
是否因贫困
外出打工 |
U | 5.12 | 0.000 | 农村居民家庭
人均年纯收入 |
U | -0.98 | 0.328 | |||||
M | 91.1 | 0.31 | 0.76 | M | 35.9 | 0.57 | 0.572 | |||||
是否因预期期望
而外出打工 |
U | -5.36 | 0.000 | 人均GDP | U | -0.8 | 0.425 | |||||
M | 87.7 | -0.52 | 0.601 | M | 21.4 | 0.53 | 0.595 | |||||
是否全家在外 | U | 1.07 | 0.284 | 政府教育
支出比例 |
U | 1.12 | 0.263 | |||||
M | 51.3 | 0.34 | 0.73 | M | 99.6 | 0.00 | 0.997 | |||||
在外打工同学
人数 |
U | -0.89 | 0.373 | 非农业人口
比重 |
U | 1.38 | 0.169 | |||||
M | 67.7 | -0.27 | 0.785 | M | 90.7 | -0.1 | 0.919 | |||||
联合检验 | Ps R2 | LR chi2 | p>chi2 | |||||||||
未匹配 | 0.223 | 148.81 | 0.000 | |||||||||
匹配 | 0.009 | 3.20 | 1.000 | |||||||||
(四) 平均处理效应
根据倾向得分估计值进行匹配的方法有很多种,包括K最近邻域匹配法、一对一匹配、半径匹配、Kernel核函数匹配等。为检验倾向得分匹配方法的稳健性 [15],本文用不同的方法分别估计了辍学的平均效应,估计结果见表4。
表4 不同方法下平均处理效应估计值 | |||||
匹配参数 | 共同支撑样本量 | 处理组收入 | 控制组收入 | 平均处理效应 | |
K最近邻域匹配法 | δ=0.001 | 601 | 1035 | 1252 | -217*** |
δ=0.01 | 655 | 1077 | 1323 | -246*** | |
δ=0.1 | 655 | 1072 | 1300 | -228*** | |
一对一匹配 | K=10;
δ=0.001 |
601 | 1035 | 1236 | -201*** |
K=10;
δ=0.01 |
652 | 1077 | 1225 | -148*** | |
K=10;
δ=0.1 |
655 | 1072 | 1231 | -159*** | |
K=20;
δ=0.01 |
652 | 1077 | 1235 | -158** | |
半径匹配 | R: δ=0.001 | 601 | 1035 | 1236 | -201** |
R: δ=0.01 | 652 | 1077 | 1230 | -153** | |
R: δ=0.1 | 655 | 1072 | 1266 | -194*** | |
Kernel函数匹配 | norm;bw=0.01 | 655 | 1072 | 1212 | -140* |
norm;bw=0.03 | 655 | 1072 | 1260 | -187*** | |
norm;bw=0.06 | 655 | 1072 | 1265 | -193*** | |
epan;bw=0.06 | 655 | 1072 | 1259 | -187*** | |
平均 | 642 | 1065 | 1252 | -186 |
从估计结果可以看出,使用不同方法估计出的平均处理效应均显著为负,说明辍学对流动人口收入有显著负面影响。不同方法估计出的平均处理效应变化范围为-246~-140元。平均来看,辍学样本月收入为1065元,未辍学样本月收入为1252元,平均处理效应为-186元,即辍学使得流动人口收入平均减少14.8%。
(五) 敏感性分析
为检验倾向得分匹配方法的稳健性,还需要进行敏感性分析[16]。考虑到不同地区①经济发展水平的不同,辍学对流动人口收入的影响也会不同,因此本文按照东部、西部、中部地区的划分,重复上述过程,得到不同地区的平均处理效应,结果见表5。
表5 不同地区平均处理效应估计结果 | |||
地区 | 处理组收入 | 控制组收入 | 平均处理效应 |
东部 | 1112 | 1316 | -204* |
中部 | 1134 | 1277 | -143* |
西部 | 965 | 1068 | -103* |
从表5可以看出,不同地区平均处理效应估计结果均显著,说明倾向得分匹配方法具有稳健性。分地区来看,东部地区的处理组收入为1112元,控制组收入为1316元,辍学使得流动人口收入平均减少15.5%。与东部地区相比,中部地区辍学的平均处理效应为-143元,收入平均减少11.2%,并且可以看出,中部地区处理组收入与东部地区大体相同,即辍学流动人口的收入水平大体一致,主要区别在于中部地区非辍学个体,即完成9年义务教育的个体平均收入低于东部地区,说明东部地区的教育回报率更高,这与东部地区的产业类型密不可分,东部地区劳动市场对高素质劳动力的需求更高。西部地区辍学使得流动人口收入平均减少9.6%,与中部地区相比,西部地区无论是辍学个体还是非辍学个体,平均收入都偏低,说明西部地区整体收入水平低且教育回报率低。总体来说,辍学对流动人口收入的负面影响程度从东到西依次递减。Zhao Litao[17]认为地区非农产业比重对农村教育回报率有重要影响,非农产业比重的提高会促进对高教育水平劳动力的需求,从而提高教育回报率。从这个角度来看,通过促进非农产业发展等方法提高市场对高教育水平劳动力的需求是降低辍学率的重要途径。
五、结论与政策建议
本文研究表明,辍学对流动人口收入具有显著的负面影响。过高的辍学率阻碍了9年义务教育的普及程度,影响我国劳动力市场人力资本水平,会对经济发展带来负面的影响,因此面对我国流动人口高辍学率这一问题,应着重从以下两个方面做出改善。
(一)大力加强教育基础设施建设,减小农民教育负担,提高教育质量
根据估计结果,辍学使得流动人口收入平均减少14.8%。这与以往人力资本的正向回报率结果一致,表明尽管个体在短期内预期教育并不能带来正向回报,但从长远来看,教育确实会给未辍学个体带来较高的收入回报,是提高我国流动人口收入的重要基础。因此,国家应加大教育投入,减小农民教育负担,严格限制中小学校增收额外教育费用;同时提高教育质量,切实解决贫困地区学校基础建设差、教师素质低、课程设置不合理等问题,减小农村学生厌学心理,从而降低辍学率。
(二)重点引导中、西部地区的劳动力需求市场
分地区估计结果表明,从东向西辍学的负面影响逐渐减小,表明东部地区对高素质劳动力的偏好更高。中、西部地区的劳动力市场对教育的回报率较低,从需求方面对流动人口辍学起到负面引导作用。同时,对于本省打工人口来说,中、西部地区教育发展水平、教育质量等方面的问题更为严重,同样也会增加辍学率,从而影响收入,形成恶性循环。应将政策扶植的重点放在中、西部地区,积极扭转西部地区较低的教育回报率,通过提高市场对高素质劳动力的需求,来引导中、西部地区流动人口在教育方面的选择。
参考文献
[1]蔡昉.中国农村初中辍学率大增[EB/OL]. 中国广播网,[2013-10-17]. https://www.cnr.cn/cj/2013zhuantiku/daguodashidai/zuixinbaodao/201310/t20131017_513851080.shtml.
[2]Wenshu Gao, Russell Smyth. What keeps China's migrant workers going? Expectations and happiness among China's floating population[J]. Journal of the Asia Pacific Economy,2011,162: 163-182.
[3]王书军,李英.农户教育人力资本投资的约束条件及对策研究——农村中小学生高辍学率的经济透视[J].农村经济,2007(1):116-118.
[4]马玉杰,凌丽.我国农村中小学生辍学的经济因素分析[J].沈阳工程学院学报:社会科学版,2005,1(2):5-7.
[5]邓红.甘肃农村初中生厌学心理调查与分析——以榆中县为例[J].兰州学刊, 2008,180(9):206-208.
[6]蒋中一,戴洪生.降低农村初中辍学率和义务教育体制的改革[J].中国人口科学, 2005(4): 59-66.
[7]Brown Philip H, Albert Park. Education and poverty in rural China[J]. Economics of Education Review, 2002, 21: 523-541.
[8]张春光.免费义务教育背景下农村初中学生辍学原因探析[J].教育诊断, 2009,167(11):79-80.
[9]高梦滔,和云.教育质量与西部农村孩子辍学率:云南省的经验证据[J]. 中国人口科学,2007(4):80-96.
[10]陈国华.农村中小学生辍学的原因分析[J].现代教育论丛,2009,162(12):76-79.
[11]杜亮.试论农村辍学与社会公平的关系——农村义务教育阶段辍学现象的社会学分析[J].中国人民大学教育学刊,2011(3):42-154.
[12]Jin Song, Terry Sicular, Yue Ximing. Appendix Ⅱ:The 202 and 2007 CHIP Surveys: Sampling, Weights, and Combining the Urban, Rural and Migrant Samples[R]. University of Western Ontario CIBC Working Paper, 2011.
[13]Rosenbaum P, Rubin D. The Central Role of the Propensity Score in Observational Studies for Causal Effects[J]. Biometrika, 1983,70: 41-55.
[14]James J,Heckman,Vytlail Edward. Policy-Relevant Treatment Effects[J].The American Economic Review,2001,91(2):107-111.
[15]Vandenberghe V,Robin S. Evaluating the Effectiveness of Private Education across Countries: A Comparison of Methods[J]. Labour Economics, 2004, 11(4): 487-506.
[16]Dehejia, Rajeev H. Practical Propensity Score Matching: A Reply to Smith and Todd[J]. Journal of Econometrics, 2005, 125: 355-364.
[17]Zhao Litao. Returns to education in rural China[J]. Frontiers of Education in China, 2007, 2(4): 30-47.
①中国城市、农村和流动人口居民收入调查—CHIP2008/RUMiC2009是由北京师范大学、澳大利亚国立大学、国家统计局和德国研究劳动所共同设计实施完成,采用分层线性随机抽样的方法,对城市、农村、流动人口分别进行调查。
作者简介:
杨斯琪,女,1994年生,山西临汾人,现为中国人民大学研究生,研究方向为收入分配,人力资本。
赵彦云,男,1957年生,天津武清人,博士,现为中国人民大学应用统计科学研究中心教授,中国人民大学统计学院院长、博士生导师,研究方向为宏观经济统计分析、投入产出分析、国际竞争力。