使用Python处理教育学领域的数据——以某篇期刊论文为例

Python是数据处理的常用语言,当然也可以用在教育学领域。下面以一篇期刊论文——为例,阐述使用Python处理教育学领域数据的思路和过程。为什么用这篇期刊文章呢,因为这篇文章的数据处理是我做的,比较熟,不用琢磨作者们的思路,也不用重新收集数据再复现,比较省事……

一、数据类型与处理目的

在教育学研究中,数据类型的分类如下:

  1. 访谈相关数据,以访谈得到的录音、文本为主;
  2. 实证研究的数据,以问卷数据为主;
  3. 文献相关数据,包括文献题录数据、文献数据库数据等;
  4. 学习行为数据,使用相关学习行为记录设备、智能设备、手机APP等记录得到的学习者的学习行为数据。

相应的,数据处理的目的包括如下几个方面:

  1. 数据的编码与转换;
  2. 数据清洗,包括异常值、奇异值、缺失值的处理,数据格式统一等;
  3. 数据的分类计算、筛选、规整、合并等。
  4. 数据概览,包括常规统计指标计算、数据分布、区间统计、对比图表等。

数据处理是数据分析和定量研究的先导性工作,选取和合适的工具决定着研究效率。数据处理的工具很多,Excel、R、Python、MATLAB和其他数据处理软件等。常规数据处理建议使用Excel,若涉及到批量、重复的处理多个数据文件,处理逻辑较为复杂,建议使用Excel自带的VBA,R或者Python完成数据处理工作。作者对Python比较熟悉,所以本文使用Python举例子。

在本研究中,数据类型是第3种、即文献相关数据,数据处理的目的是数据清洗和数据的分类计算、筛选、规整、合并等,数据处理逻辑相对复杂,使用的是Python编程处理。不同的数据类型、数据处理目的需要不同的思路和做法,下文仅以本研究为例,阐述数据处理的过程。

二、数据处理思路

将本研究定义的世界一流大学(138所)和我国世界一流大学建设高校(42所)的发文数据从爱思唯尔的数据库中下载下来,得到的数据如下图:12个excel文件,后缀为.xls。

点开可以可以看到数据格式如下。

可以看到,excel的数据格式以不规则数据表的形式呈现,且每个excel中有多个sheet,每个sheet表征一所大学各个学科的发文数据,sheet的前几行最关键的信息是大学名称,下方数据表每行代表该所大学每个二级学科的发文特征。

每个sheet滑动到底部,可以看到每个数据表有330多条数据,每个Excel有几十个sheet(每个sheet代表一所高校,包含该所大学2014-2019年在各个学科发文数据)。本研究的数据处理的目的是:对这些数据进行处理,以一级学科为行、各个大学为列进行整理、合并,为下面以学科发文结构为基础的大学类型的聚类分析和接下来的建设评价做基础,要实现这个处理目的当然也是手动复制粘贴,但是每所高校的一级学科的位置并不固定、需要处理的sheet和Excel文件过多,手动复制粘贴性价比不是特别高,所以本研究使用的处理方法是使用Python编程整理相应数据。

本文使用一级学科表征数据,将数据库中涉及到的一级学科先提取出来,放置在一个.txt文件中。爱思唯尔数据库将所有学科分为27个。

本研究共需要6个指标:Scholarly Output、Scholarly Output (growth %)、Citations Authors、Authors (growth %)、Citations per Publication、Field-weighted Citation Impact

所有指标均在sheet的下方的数据表里,由于sheet格式不规则,假如不是特别精通pandas的话,推荐使用xlrd和xlwt读写这种不规则的excel表,其中xlrd读取原excel表,xlwt生成新excel表。此外涉及到多个excel文件的循环读写,还需使用python自带的os模块。所以本研究用到的Python模块如下。

import xlrd
import xlwt
import os

待处理数据分析完毕后,分析输出数据的格式。从前面分析过程可知,需要输出180所高校在27个一级学科上的表现,衡量方式以6项指标表征。可以看到这是一个三维数据。

为了在二维的excel表格中输出三维数据,将高校设为纵坐标,一级学科设为横坐标,同时在6个sheet中呈现反映各个高校的各个一级学科在6个指标中的表现情况,数据形式参见下文第三部分的数据处理结果。

分析到这里,数据处理的思路总结起来也是很简单的。

三、数据处理过程

数据处理过程的核心思想是:按照输出的数据格式循环处理每个输入的sheet表。输出的excel表有6个sheet,每个sheet代表一个指标。我的思路是分指标循环进行提取。由于数据处理代码的复用性不高,在这里列举伪代码如下:

循环1:按指标循环:
         循环2:按学校循环:
                    抽取各个学校的相应指标

再得到相应的数据后,使用xlwt,按照我们预计的格式,写入到Excel中,得到我们的结果,代码如下。

def data_excel(workbook, subject, school_subject, name):
    sheet = workbook.add_sheet(name)
    for i in range(len(subject)):
        sheet.write(i+1, 0, subject[i])

    # 生成每个学校的内容
    ii = 1
    for school in school_subject:
        school_col = school_subject[school]
        sheet.write(0, ii, school)
        jj = 1
        for col in school_col:
            sheet.write(jj, ii, school_col[col])
            jj += 1
        ii += 1
    print(name + '已完成')
    return workbook


with open(r'data/发文表现情况整理/学科.txt','r') as f:
    subject = f.read().split('\n')

dataPath = 'data/发文表现情况整理/data/'
path_type = ['abroad','china']
nameGroup = ['Scholarly Output','Scholarly Output growth','Citations','Authors','Authors growth','Citations per Publication','Field-weighted Citation']

for ii in range(2):
    t= path_type[ii]
    path = dataPath + t + '/'

    workbook = xlwt.Workbook(encoding = 'utf-8')
    for i in range(7):
        school_subject = get_school_subject(i)
        workbook = data_excel(workbook, subject, school_subject, nameGroup[i])
    workbook.save(r'data/发文表现情况整理/result/result-{}.xls'.format(path_type[ii]))
    print('\n\n')

好的,太长不看,直接看结果……

横坐标是学科,纵坐标是高校,每个sheet是指标,已经达到了预期的数据处理目标,据说相对于手工处理而言,极大的提高了效率,对于一个曾经的工科学生的体会是,这些机械重复的事情为什么要自己做……

四、一些思考

本研究凝聚了作者们的大量心血和老师们的精心指导,在这里向他们表示由衷的感谢和敬意!数据处理只是本研究一个微小的方面,希望大家多多关注论文内容,多多拍砖。将这数据处理部分展现出来一方面是希望能够回顾和总结做过的工作,现在回想起来这部分工作也并不复杂(都做完了哪还有觉得复杂的道理- -);另一方面也是希望梳理一下教育学的数据处理的类型和方法,以期为自己在将来的研究中提供一种“就这,这些数据处理我都能做”的错觉,增强一点自己的科研自信心。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351