还在为写论文做学术找不到数据而发愁吗？

其实数据集的获取有很多的渠道，主要是需要的是哪种数据，现小编就总结了一些数据集的获取渠道，在写论文或者做学术，甚至工作中的时候，都可以通过不同的渠道去寻找自身需要的数据。

上期介绍了三个大数据竞赛平台，里面有很多的大数据竞赛，并会提供相应的数据；这期将带大家看看国内影响较高的三个全国性的大调查吧，调查数据在论文和核心期刊中受到广泛认可。

数据

获取

01CEPS

1.1. 简介

“中国教育追踪调查”(CEPS)是中国人民大学中国调查与数据中心（National Survey Research Center，NSRC）重要的常规调查项目之一。项目旨在记录并解释青少年学生从较低教育阶段向较高教育阶段发生转变的教育过程。该项目发端于2009年创立的“首都大学生成长追踪调查”项目（BCSPS）。在此经验基础上，“中国教育追踪调查(初中阶段)”将“中国教育追踪调查”项目扩展至义务教育阶段。调查计划于2013-2014 学年针对七年级和九年级的初中在校生全面展开，其基线调查于2013年秋季学期和2014年春季学期进行。进入样本的七年级学生将进行3个轮次的年度跟踪调查，考查其初中阶段教育过程以及升入高中或进入劳动力市场的情况；九年级学生将于次年进行一次追踪调查，考查其升入高中或进入劳动力市场的情况。

1.2. 总体介绍

“中国教育追踪调查（初中阶段）”采用分层次、多阶段、概率与规模成比例（PPS）的抽样方法，以学校为基础，在全国范围内抽取112所学校、448个班级共计约22400名学生作为调查样本，该样本在全国范围具有代表性。调查针对学生、家长、班主任、任课教师以及学校领导分别设计了5套问卷，旨在全面收集与教育过程相关的不同层次的基础数据，包括地方教育政策、学校课程结构、师生关系、学生朋辈关系、家庭环境、家庭教育过程、亲子关系、家校关系等等，进而考查学生的学习机会、学习动机、努力程度以及发展过程。此外，调查针对七年级和九年级学生分别设计了一套标准化认知能力水平测试。通过具有全国代表性的调查样本收集如此大规模、多层次的教育数据，在我国尚属首次。

调查内容包括学生的基本信息、户籍与流动、成长经历、身心健康、亲子互动、在校学习、课外活动、与老师/同学的关系、社会行为发展、教育期望、以及家庭成员基本信息，家长的基本信息、生活习惯、亲子互动、家庭教育环境、家庭教育投入、社区环境、对学校教育的看法、与老师的互动、对孩子的教育期望，班主任老师对学生行为的评价、与学生家长的互动、对本地与外地户籍学生的比较，包括班主任在内的任课老师的个人基本信息、教育理念、日常教学工作、工作压力与满意度，学校负责人基本信息、教育理念，学校的基本信息、教学设施、招生入学、在校师生情况以及日常教学管理。

02 CHARLS

2.1. 背景

随着中国人口的快速增长，老龄人口的供养日益成为一个重要问题。经济快速发展的特征之一是年轻一代的终身收入显著地超过他们年老父母，老龄人口成为中国大的弱势群体之一。与此同时，中国的生育控制政策意味着相比过去中国的老年人由更少的子女供养。如何解决为老年人提供良好生活保障的问题是近年来中国社会快速发展面临的巨大挑战之一。据预测，到2050年，我国60岁以上的老年人占总人口的比重将由2000年的10%增加到30%，而老年人口赡养比（25-64岁的壮年人口规模/65岁以上的人口规模）将由2000年的近13:1下降到2.1:1[1]。为了应对这一挑战，CHARLS在家庭和社区两个层面衡量这些社会保障体系的存在并对其进行分析，为政府修正和完善现行政策提供更加科学的基础[2]。

2.2. 总体介绍

中国健康与养老追踪调查（China Health and Retirement LongitudinalStudy, CHARLS）旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析我国人口老龄化问题，推动老龄化问题的跨学科研究。调查内容为老年家庭以及老年人及其配偶人的全面信息，包括健康状况与功能、医疗保健与保险、收入支出与资产、住房状况等。CHARLS全国基线调查于2011年开展，覆盖150个县级单位，450个村级单位，访问了10257户家庭的17708个人，总体上代表中国中老年人群。这些样本以后每两到三年追踪一次，对所有被访者都长期追踪访问，观察其生命历程的变化，而且被访问对象包括退休前的中年人群[3]。

表1. 样本数

单位省区县级单位村级单位家户个人

样本数281504501025717708

2.3. 抽样过程[4]

CHARLS基线调查在全国28个省150个县区的450个村、居开展。CHARLS样本代表中国45岁及以上住户人群，机构中的老年人并没有进入抽样，但是基线的受访者在后续的调查中如果进入到机构中将会被随访。所有的样本通过4个阶段被抽出来。

2.3.1 第一阶段：县级抽样

第一阶段，除了西藏以外，全国其他所有的县区通过地区排序，在地区内按照城市和农村进行排序，然后再通过人均GDP进行排序。地区是基于国家统计局关于省级地区的分类。排序后，会列出每个县、区的人口以及累计人口。如果N是所有县级抽样单位的的总人口，需要抽取的县区是150个，我们定义一个间隔为n=N/150。第一个县区的抽取是先选择一个0到1之间的一个随机数，然后选择第一个累计人口大于r*n的县区作为第一个县区。然后将n加上r*n这个起点，第二县区就是累计人口大于r*n+n的第一个县区。第三个县区以此类推，在r*n+n的基础上再加上间隔n，选择累计人口大于r*n+n+n的第一个县区。

2.3.2 第二阶段：村、居抽样

在农村地区样本选自行政村（村），城市地区以社区（社区）作为首选抽样单位（PSUs），社区包括一个或多个原居民委员会（居委会）。每个县级单位选取3个PSU，使用PPS（规模比例概率）抽样。需要注意的是，农村的县同时包括农村村庄和城市社区，城市地区同样可能包括农村村庄。对于每个县级单位，PSU列表随机排序。随后列出每个PSU的人口与累积人口（该PSU人口加上前面所有PSU人口数）。如果N是这个县级单位的人口总数，抽样PSU数量是3个，则定义区间n=N/3。第一个PSU在0到1之间随机选择数r，选择第一个社区使累积人口大于r*n。以r*n作为起点，加上区间n，第二个PSU使累积人口大于r*n+n。第三个PSU再加上区间n，累积人口数大于r*n+n+n。这一过程在STATA中用samplepps命令执行。

人口数量较多的社区（大于 2000 户），基于地图的抽样框架花费较高，允许负责人选择该社区的一个地理分区作为 PSU，如一个或多个原居委会。抽样需包含足够的子社区以保证足够数量的合格抽样受访者。子社区的选择应基于每个子社区的估计人口，我们有30个社区进行了拆分。

因为原先的样本框存在后来又有社区的合并和拆分情况，在抽中的450个村、居中，我们将6个村居进行了替换，2个村是因为搬迁，1个社区居委会升级成为县级的区，2个社区几乎全部为集体住所，1个为大学的宿舍区，另外1个为监狱，这些村居并不是我们的样本。样本村居的替换也是和其他村居完全一样的抽样方法。有6个县区行政边界发生变化，所以抽中的村、居分配在两个县区中。我们没有替换这些村、居，结果终的县区数为156个。

2.3.3 第三阶段抽样：家户抽样

在PSU中，我们从样本框中选择住户样本，样本框是在当地协调人的帮助下由绘图员根据地图构建的。为了准确获得每个村、居中家户的样本框，我们CHARLS-GIS绘图/列表软件。对于每一个PSU，一名绘图员首先会携带GPS到社区收集边界，然后CHARLS项目办公室会使用边界信息抓取Google Earth底图，以此作为绘图和列表的基础。然后，每个PSU中的所有建筑物都会进行拍照和GPS定位，并对每个建筑物中的住户进行列表。集体性住所如军队、学校、宿舍以及养老院被排除在样本框之外。

CHARLS项目总部会对每个PSU中的样本框进行核查，保证村、居内的所有建筑物都包括在内。核对后，督导会使用CHARLS-GIS软件随机抽取80户，以小红旗的方式标记在地图上，并发送回实地的绘图员进行信息收集，包括住户中长人的年龄、户主的姓名、电话以及是否空户。最后，实际抽中的数量在每个PSU中会超过目标样本24户，因为某些住户可能没有45岁以上的受访者、或者空户、无应答。以80户中的收集的信息为基础，包括长人的年龄、户主的姓名、电话以及是否空户等，督导会使用CHARLS-GIS软件在每个社区、村居抽取一定数目的住户。开始的样本是一个80户的随机样本，从这些户中我们计算适龄率、空户率指标。然后分别估算每个村居的样本数量，从整个样本框中抽取样本。

每个PSU的终抽样工作结束后，抽中的住户信息再次返给绘图员，绘图员将这些信息在CHARLS-GIS软件上进行加载。然后，绘图员会给抽中的住户送“至居民的一封信”。同时，CHARLS项目的IT会把每个村、居抽中的住户列表和地址导入到访员的CAPI系统中。

我们对每个PSU中的所有能够找到并愿意参与调查的适龄户进行了访问。某些住户单元有多个家户住在一起。这种情况下，我们随机选择一个有适龄受访者的家户进行调查。因为PSU中的住户因为找到与否、是否有适龄受访者或者愿意参加与否的不同，所以每个PSU后完成的受访户数量也不同。这些都会在样本权重上进行调整。

2.3.4 第四阶段抽样：个人抽样

在每个抽中的家户中，会有一个短的过滤问卷来确认家户中是否有适龄要求的受访者。如果一个家户中有多个超过40以上的人，我们随机选择一个。如果抽中的人年龄在45岁以上，他/她作为主要受访者，并同时访谈他或她的配偶。如果抽中的人年龄在40-44岁之间，他/她作为预留样本以后进行调查。如果适龄成员无法回答问题，我们指定一个代理受访者帮助他或她回答问题，如果受访者有配偶或知情的成年子女，通常作为代理受访者。无45岁及以上成员的家庭没有对其进行访问。

03 CHFS

3.1 简介

中国家庭金融调查（ChinaHouseholdFinanceSurvey，CHFS）是西南财经大学中国家庭金融调查与研究中心（下称中心）在全国范围内开展的抽样调查项目，由甘犁教授于2009年发起并领导，每两年调查一次且有持续的追踪调查，收集有关家庭金融微观层次的相关信息。

调查的内容主要包括：金融资产和包括住房资产在内的非金融资产、负债和信贷约束、收入、消费、社会保障与保险、代际转移支付、人口特征和就业以及支付习惯等。中心每两年进行一次全国性入户追踪调查访问，已经分别在2011年和2013年成功实施两次调查。2011年第一轮调查样本分布在全国25个省（自治区、直辖市），80个县（区、县级市），320个村（居）委会，样本规模为8438户。2013年第二轮调查样本分布在全国29个省（自治区、直辖市），262个县（区、县级市），1048个村（居）委会，样本规模为28141户。同时，新一轮调查在保证全国代表性的前提下，增加了数据的省级代表性。中心于2014年开展季度电话回访，每次回访规模约为5000户，季度问卷内容为物价、房价、股价预期；房屋交易；借贷行为等。最新公开的2017年数据样本量为41000户左右家庭，同时调查数据具有很好的全国代表性，以及较高的调查精度，调查的各项指标与国家统计局的公布数据非常接近[1]。

3.2 抽样过程

中国家庭金融调查各年度抽样具有连续性，样本量逐步扩大。

中国家庭金融调查的抽样框为2010年人口普查框+国家统计局社区目录，本项目的整体抽样方案采用了分层、三阶段与规模度量成比例（PPS）的抽样设计。第一阶段抽样在全国范围内抽取市/县；第二阶段抽样从市/县中抽取居委会/村委会；最后在居委会/村委会中抽取住户。每个阶段抽样的实施都采用了PPS抽样方法，其权重为该抽样单位的人口数（或户数）。

第一阶段是区县抽样。目标是从2585个市县中抽取80个市县，将2585个市县按照人均GDP分成十层，在每个层内以市县人口数为权重，采用PPS抽样抽取8个市县，共抽得80个市县，样本涵盖全国25个省，

第二阶段是村/居委抽样。目标是从市县中抽取居委会/村委会样本，其具体实施方法如下：

第一，按照各市县的非农人口比例的分位数，将各市县分成5个组。分组的依据是各市县非农人口比重20%、40%、60%和80%的分位数。

第二，在非农人口比例最大的市县组中，居委会和村委会分配的样本比例是4:0。

第三，在非农人口比例次大的市县组中，居委会和村委会分配的样本比例是3:1。

第四，以此类推，在非农人口比例最低的市县组中，居委会和村委会分配的样本比例是0:4。

基于上述样本分配方式，在既定市/县内形成了城镇和农村两个抽样框。在城镇和农村抽样框内，其抽取的居委会和村委会样本数量是已知的。因此可以分别按照各居委会（村委会）的居民户数进行PPS抽样。

第三阶段为家庭住户抽样。在每个抽中的村、居委会，本调查在城镇地区根据社区住房价格对高房价地区进行重点抽样，即房价越高，分配的调查户数就相应越多；而在农村地区将样本量固定为20户。由此得到每个城镇社区访问的样本量为25至50个家庭。在每个抽中的家庭，对符合条件的受访者进行访问，所获取的样本具有全国代表性[2]。

论文、期刊、学术数据获取渠道--调查篇（二）

论文、期刊、学术数据获取渠道--调查篇（二）

还在为写论文做学术找不到数据而发愁吗？

其实数据集的获取有很多的渠道，主要是需要的是哪种数据，现小编就总结了一些数据集的获取渠道，在写论文或者做学术，甚至工作中的时候，都可以通过不同的渠道去寻找自身需要的数据。

友情链接更多精彩内容