网络调查作答质量评估分析

1. 背景简介

随着网络技术的发展,社会调查方式不再局限于纸笔书面调查,由于时间和金钱成本低,通过网络调查平台发布问卷收集数据的方式逐渐兴起。然而,由于网络访问能力的差异性可能会导致样本取样偏差,因而,不少大型调查项目依然采用纸笔调查。此外,不少实践研究似乎也反映出,对比纸笔调查而言,网络调查方式下,被调查者更可能不认真作答,从而影响调查数据的质量,这也成为了限制网络调查发展的重要原因之一。

不过,随着技术的不断发展,网络调查的优点在逐渐地凸显。一方面,访问网络能力差异性在不断减小。另一方面, 就问卷调查的数据质量问题而言,基本上可以从以下几方面来进行控制:(1)问卷开发阶段(包括但不限于问卷内容和问卷呈现等);(2)问卷发布阶段(包括但不限于抽样方式、发布问卷方式、邀请设计、再次提醒和激励手段等);(3)问卷完成阶段(包括不限于被调查者卷入度、被调查者的作答模式、参与调查的动机、参与调查的环境等);(4)问卷回收阶段(包括但不限于工具的可靠性、数据的安全性等)。在这些阶段中,网络调查较为突出的优势在于,在问卷完成阶段中,被调查者的作答态度导致的数据质量问题可以通过收集被调查者的作答过程数据(paradata),例如,作答时间、快速作答情况、IP地址、浏览器信息等,进行相应的控制和评估,而这正是纸笔调查难以实现的地方。

因此,充分利用作答过程数据,并结合被调查者的作答模式来进行作答质量评估,有利于提高调查进度和数据使用效率。

综上,尝试利用作答过程数据及作答模式相关指标来预测网络调查作答质量情况,即建立质量评估模型,从而为发放红包方式提供相应的指标参考。

2. 模型建立思路

利用已有的网络调查数据,将作答过程及作答模式的相关指标作为预测变量,人工清洗的作答质量为结果变量,建立回归模型。
其中,网络调查数据基本信息如下:

  • 收集时间:2018-6-19至2018-10-23;
  • 样本量:N = 25885;
  • 变量情况:390个变量;
  • 问卷情况:共7页;

3. 模型使用变量

使用的预测变量及结果变量如下,其中,预测变量的作答模式中的数值指的是问卷中所有样本均需要作答的单选题的数值,多选题、填空题不在其中。

(1)预测变量

包括作答模式、作答过程、作答时间、重复性四个方面。

① 作答模式

包括单选题中的数值是否相同、相同数值的最大长度、数值的标准差、拐点数、作答模式指标5类:

1)数值是否相同:【算出】I.每一页单选题的数值是否都相同;II.所有单选题的数值是否相同;III. 数值都相同的页数。

2)相同数值的最大长度:即最多有多少个数值是相同的。【算出】I. 每一页相同数值的最大长度及该长度占该页题目数的比例;II. 最大长度的最大值及比例最大值。

3)数值的标准差:【算出】I.每页单选题的标准差;II.标准差的均值。

4)相对拐点数:即连续三个值中,中间值大于或小于其他俩值,即记为1个拐点,用拐点数与中位数差值的绝对值表示相对拐点数。【算出】I.所有页面的相对拐点数的均值;II.所有题目的相对拐点数。

5)作答模式指标:参见(Leiner, 2019),该指标对作答模式(直线、对角或折线)较为敏感,值越小,表明规律性作答的可能性越高。

计算过程:


计算指标.png

其中,ri指的是某道题的答案数值,k指的是题目数量。ri''表示的是(ri-ri-1)-(ri-1-ri-2).

计算指标2.png

举例:如上图所示,共10道题:

答案1(直线模式):5 4 1 1 1 1 1 1 1 1

——作答模式指标=|[(1-4)-(4-5)]+[(1-1)-(1-4)]+……+[(1-1)-(1-1)]|/(10-2)=1/8

答案2(折线模式):5 4 3 2 1 2 3 4 5 5

——作答模式指标=|[(3-4)-(4-5)]+[(2-3)-(3-4)]+……+[(5-5)-(5-4)]|/(10-2)=1/8

答案3(一般作答):1 5 1 1 2 3 3 2 1 2

——作答模式指标=|[(1-5)-(5-1)]+[(1-1)-(1-5)]+……+[(2-1)-(1-2)]|/(10-2)=4/8

答案4(一般作答):1 2 2 1 3 3 2 3 1 4

——作答模式指标=|[(2-2)-(2-1)]+[(1-2)-(2-2)]+……+[(4-1)-(1-3)]|/(10-2)=3/8

答案5(变异性很大):3 1 4 3 4 2 5 1 3 3

——作答模式指标=|[(4-1)-(1-3)]+[(3-4)-(4-1)]+……+[(3-3)-(3-1)]|/(10-2)=2/8

答案6(变异性很大):5 2 4 1 4 2 5 4 5 2

——作答模式指标=|[(4-2)-(2-5)]+[(1-4)-(4-2)]+……+[(2-5)-(5-4)]|/(10-2)=0/8

【算出】I.每页作答模式指标及所有页该指标均值;II.所有单选题的作答模式指标。

② 作答过程

系统自带】快速点击次数(ShortTimeClickCount),即用户快速作答提醒的次数。

③ 作答时间

包括作答时间、相对作答时间、作答时间异常值3类:

1)作答时间:【算出】结束时间和开始时间的差值。

2)相对作答时间:参见(Leiner, 2019),【算出】用作答时间除以作答时间中位数,得到相对作答时间

3)作答时间异常:根据四分位距(iqr),过高=q3+1.5iqr;过低=q1-1.5iqr;【算出】I.作答时间是否过高;II.作答时间是否过低。

④ 重复性

算出】IP地址是否重复。

(2)结果变量

包括填空题乱答、根据线性回归学生化残差( Studentized (jackknifed) residuals)识别出的异常值两方面,二分变量,1-质量好(n = 25732),0-质量不好(n = 153)

1)填空题乱答:对填空题的答案中,如“别管那么多”、"你猜"、"这么多表格谁有心情认真填完"、"这个问卷bug太多了,很无语,老太婆的裹脚布一样"等明显不认真甚至带有情绪化的答案标记为质量不好的数据。

2)数值型填空题答案离谱:例如,兄弟姐妹总和大于100,不及格科目数量大于100的标记为质量不好的数据。

3)线性回归学生化残差:计算回归模型(均已反向并计算均值),得到该回归模型的学生化残差,由于样本量较大,因此,将残差超过4倍标准差的标记为质量不好的数据。

PS:同时也得到了该回归模型的杠杆值和Cook's D值,这俩值均没有异常,故不以此来标记数据质量。

PPS:其他数值型填空题,由于填写时已经限制了相应的填答逻辑或者题目设置的确实不好填答,故不以此来标记数据质量。

4. 方法及结果

(1)方法

二元Logistics回归;通过逐步回归的方法建立回归模型。

(2)结果

① 回归结果

回归结果.png
  • 模型评价:
    ①. 模型拟合优度检验:χ2(25853) = 25920.98,p = 0.3781;
    原则:χ2值越小,P越大,模型拟合效果越好

    ②. AIC = 1704.54,BIC = 1745.344
    原则:越小越好

    ③. ROC曲线下面积 = 0.7924
    原则:比0.5越大越好

    ④. Nagelkerke R2 = 0.099(预测力)
    原则:越大越好

总的来说,预测力低,主要是变量多,样本量大,还有其他可解释的预测变量。

PS:通过随机抽样进行逐步回归,ShortTimeClickCount这变量的预测能力比较稳定。

  • 结果显示,4个预测变量能显著地预测数据质量情况

①所有页面相对拐点数的均值:所有页面相对拐点数均值每增加一个单位,数据质量好比质量不好的概率低越17%,也就是,拐点数越多或者越少,数据质量更可能不好。

②所有页面中相同数值最长长度占比的最大值:在所有页面中,相同数值作答数量占所在页面题目的比例的最大值越大,也就是,连续选择相同数值答案比例每增加一个单位,数据质量好比数据质量不好的概率低约67%,即作答相同数字比例越高,数据质量更可能不好。

③相对作答时间:相对所有作答者作答时间的中位数而言,作答时间每增加一个单位,数据质量好比数据质量不好的概率高约0.89倍,即作答时间越长,相对而言,数据质量更可能好;

④快速点击次数:被提醒作答速度过快的次数每增加一个单位,数据质量好比质量不好的概率低约3%,即作答速度过快提示次数越多,数据质量更可能不好。

②模型方程

模型.png

得数取对数之后,可以得到该数据质量好是质量不好的概率多少倍。

③应用

根据上述结果值,设置红包等级,例如,[0-0.5]微型红包;[0.5-1]小型红包;[1-2]中等红包;[2-4]大红包;[4以上]超大红包。

5. 一些其他想法

网络调查作答质量反馈:

对于网络调查的数据质量问题,研究者还是挺不放心的。

从科研服务的角度来说,如果调查系统反馈的数据能够在一定程度上帮助研究者识别质量不好的数据或者仅仅起到提示作用,也能在一定程度上减轻研究者的心理和研究负担。例如,

  1. 对作答时间情况进行标记提醒,如标记整体时间奇异值(过长或过短)作为参考;
  2. 对IP相同(或学号)进行标记提醒;
  3. 提供数据质量概率指标进行参考;
  4. 其他清洗数据的参考提示,如所有页面中相同数值最长长度。

参考文献

Leiner, Dominik J. (2019). Too Fast, too Straight, too Weird: Non-Reactive Indicators for Meaningless Data in Internet Surveys. Survey Research Methods, 13(3). doi: 10.18148/srm/2018.v13i3.7403.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容

  • 幻想着用简单的招数打遍所有复杂的情况是不切实际的。 如前篇《在用研之前,你需要知道的那些事!》所言,对“新产品”和...
    常思行阅读 2,981评论 0 8
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,687评论 0 3
  • 春节就快到了,没成家的大多怕三姑六婆,没存款的大多寄望年终奖。 今天,我们不聊三姑六婆,只聊年终奖。 年终奖在我国...
    貓太年阅读 283评论 0 0
  • 今天我读了101位名人成长故事。里面的好词好句:不要抱怨自己的生活太平凡,没有科学研究的机会,我们身边,科学无处不...
    邵昱晗阅读 536评论 0 0
  • 闺蜜珊珊跟老公从三亚度蜜月回来了,给我带了一些礼物,约着喝了一杯下午茶,她告诉了我一个劲爆的消息 「你们 CEO ...
    代码胖阅读 361评论 0 0