01 生成式人工智能背景下提升学生批判性思维素养：深度伪造内容检测的眼动模式研究

编号260207拆解-V244-7 Computer and Education

APA格式引用：Weigelt, H., Segev, E., Kurtz, G., Kahana, O., & Raz Fogel, N. (2026). Enhancing students' critical thinking literacy in a generative AI context: Eye movement patterns of deepfake detection.Computers & Education, 244, 105529.https://doi.org/10.1016/j.compedu.2025.105529

标题层级结构（英文和中文对照）：

一级标题（Heading Level 1）

1. Introduction and aim of the study / 引言与研究目的

2. Literature review / 文献综述

-2.1 GenAI in higher education / 高等教育中的生成式人工智能

-2.2 The deepfake challenge / 深度伪造挑战

-2.3 Critical thinking literacy in higher education in the context of GenAI / 生成式人工智能背景下高等教育中的批判性思维素养

-2.4 Eye-tracking method and image distinction / 眼动追踪方法与图像区分

-2.5 The present study / 本研究

3.Method / 研究方法

-3.1 Participants / 被试

-3.2 Measures / 测量工具

--3.2.1 Deepfake detection task / 深度伪造检测任务

--3.2.2 Post-Hoc survey / 事后调查问卷

--3.2.3 Critical thinking intervention program / 批判性思维干预项目

-3.3 Procedure / 研究程序

4. Data coding and analysis / 数据编码与分析

5. Results / 研究结果

6. Discussion / 讨论

7.Limitations and future studies / 局限性与未来研究

【研究问题】

英文原文：

1. Are there differences (and to what extent) between the experiment and control groups' patterns of visual gaze attention when viewing authentic versus deepfake portrait images?

2. Are there differences (and to what extent) between the experiment and control groups in visual gaze duration when viewing authentic versus deepfake portrait images?

3. Are there differences (and to what extent) between the experiment and control groups' actual success in identifying portrait images accurately?

4. Are there similarities between the experiment and control groups in their AI hyperrealism tendency?

5. Are there differences (and to what extent) between the experiment and the control group in perceived success in identifying portrait images accurately?

1. 实验组与对照组在观看真实人像与深度伪造人像时的视觉注视注意模式是否存在差异（以及差异程度如何）？

2. 实验组与对照组在观看真实人像与深度伪造人像时的视觉注视持续时间是否存在差异（以及差异程度如何）？

3. 实验组与对照组在准确识别人像方面的实际成功率是否存在差异（以及差异程度如何）？

4. 实验组与对照组在人工智能超现实主义倾向方面是否存在相似性？

5. 实验组与对照组在感知到的识别人像成功率方面是否存在差异（以及差异程度如何）？

【研究方法】

本研究采用组间实验设计（between-group design），将参与者随机分配到实验组和对照组。实验组接受批判性思维干预训练，对照组不接受任何干预。研究使用眼动追踪技术记录参与者在完成深度伪造检测任务时的视觉注视模式。具体而言，研究在高等教育机构的"眼动追踪实验室"进行，使用Tobii Fusion眼动仪（120Hz采样率）连接32英寸液晶显示器（1920×1080分辨率）记录眼动数据。参与者坐在距离显示器60-70厘米处，以全屏模式观看刺激材料。刺激材料包括12张人像图片（6张人工智能生成，6张真实人像），每张图片呈现时参与者需判断其为人工智能生成还是真实人像，并通过点击相应按钮作答，无时间限制。人工智能生成的人像来自"this person does not exist"生成器，真实人像来自freepik图库。所有图片在构图、头部大小和位置方面保持一致。实验组的干预项目由任课教师在"视觉传达"课程中实施，内容包括图像分析的两个层面（指称层面和内涵层面）、背景情境的重要性以及最新的深度伪造检测策略，共使用18张图片（包括深度伪造和真实人像）进行训练。研究还包含事后调查问卷，评估参与者对自身表现的预测以及人口统计学信息和人工智能图像使用经验。数据分析使用Tobii Pro-Lab软件定义兴趣区（AOI），包括面部区域（眼睛、鼻子、嘴巴）和背景区域，主要分析指标为注视次数和注视持续时间，统计分析使用IBM SPSS Statistics 28.0进行。

【对研究问题的回答】

研究问题1：实验组与对照组在观看真实人像与深度伪造人像时的视觉注视注意模式是否存在差异（以及差异程度如何）？

英文：Are there differences (and to what extent) between the experiment and control groups' patterns of visual gaze attention when viewing authentic versus deepfake portrait images?

回答：存在显著差异。通过眼动热力图可视化分析发现，实验组表现出更广泛的注视分布，特别是在眼睛、鼻子和嘴巴之外的"背景"或"面部周边"兴趣区。具体而言，在女性人像中，实验组在耳朵和头发周围的注视明显增加；在男性人像中也观察到类似模式。这一结果表明，干预训练促使学生将视觉注意从核心面部特征扩展到外围区域，采用了更全面的评估策略而非直觉式的视觉检查。假设H1被接受。

研究问题2：实验组与对照组在观看真实人像与深度伪造人像时的视觉注视持续时间是否存在差异（以及差异程度如何）？

英文：Are there differences (and to what extent) between the experiment and control groups in visual gaze duration when viewing authentic versus deepfake portrait images?

回答：存在显著差异，但仅限于特定兴趣区。独立样本t检验显示，在女性人像上，对照组总注视持续时间为4425±4653毫秒，实验组为9526±5839毫秒（p<.01）；在男性人像上，对照组为3802±3400毫秒，实验组为8172±5250毫秒（p<.01）。进一步分析发现，这种差异主要源于背景/面部周边区域：女性人像背景区对照组为1269±1933毫秒，实验组为4496±4218毫秒（p<.01）；男性人像背景区对照组为1195±1668毫秒，实验组为4012±3369毫秒（p<.01）。值得注意的是，在眼睛、鼻子等核心面部特征上，两组无显著差异。补充分析证实，这种差异源于注视次数的增加，而非单次注视时间的延长。假设H2被部分接受。

研究问题3：实验组与对照组在准确识别人像方面的实际成功率是否存在差异（以及差异程度如何）？

英文：Are there differences (and to what extent) between the experiment and control groups' actual success in identifying portrait images accurately?

回答：存在显著差异。卡方检验显示，在12张图片中有8张存在显著的组间差异。总体响应模式分析表明，组别与回答正确性之间存在显著关联（χ²=23.54, p<.01）：实验组正确回答151次、错误137次，而对照组正确188次、错误340次。尽管两组在单张图片上的准确率都相对较低（与文献中人类难以区分深度伪造与真实媒体的发现一致），但实验组的整体检测准确率显著优于对照组。假设H3被接受。

研究问题4：实验组与对照组在人工智能超现实主义倾向方面是否存在相似性？

英文：Are there similarities between the experiment and control groups in their AI hyperrealism tendency?

回答：两组不存在相似性，反而表现出显著差异。卡方检验显示，组别与深度伪造检测倾向之间存在高度显著关联（χ²=35.18, p<.001）。实验组更倾向于将图像归类为深度伪造（185次AI归类 vs. 103次非AI归类），而对照组则表现出相反倾向（325次非AI归类 vs. 203次AI归类）。这一发现表明，对照组更容易受到"AI超现实主义"偏见的影响——即倾向于将生成式人工智能生成的人脸图像感知为真实人类，这与Nightingale和Farid（2022）以及Makowski等人（2025）的研究发现一致。干预训练有效地缓解了这种固有偏见，使学生更愿意质疑图像的真实性。假设H4被拒绝。

研究问题5：实验组与对照组在感知到的识别人像成功率方面是否存在差异（以及差异程度如何）？

英文：Are there differences (and to what extent) between the experiment and the control group in perceived success in identifying portrait images accurately?

回答：不存在显著差异。曼-惠特尼U检验显示，两组在感知到的深度伪造与真实图像识别成功率方面无显著差异。实验组自评正确率为68%，对照组为66%，而实际正确率分别为52%和35%。两组都显著高估了自己的表现，自评估计远高于实际准确率。这一发现与Köbis等人（2021）的研究一致，表明个体在复杂任务上难以准确评估自己的表现，尤其是在涉及猜测的情况下。值得注意的是，尽管干预训练提高了实际检测技能并改变了视觉注视模式，但并未增强学生对这些改进的元认知意识。这可能与任务相关的认知负荷有关，也可能反映了邓宁-克鲁格效应——能力有限的个体更容易高估自己的表现。假设H5被拒绝。

【摘要】

本研究使用眼动追踪技术，比较了在引导式暴露与非引导式暴露条件下，大学生观看深度伪造人像与真实人像时的注视模式，以评估这些模式对批判性思维素养习得与应用的影响。研究采用组间实验设计，分析了参与实验组（n=24）与对照组（n=44）学生的视觉注视模式。结果显示，两组在视觉注意模式上存在显著差异：实验组表现出更长的注视持续时间和更广泛的注视分布。实验组在识别深度伪造人像方面的准确率也更高，且更倾向于将图像归类为生成式人工智能产物。然而，两组都高估了自己的检测能力，在感知到的表现方面没有显著差异。随着生成式人工智能技术的持续发展，高等教育机构必须优先培养21世纪必备素养，将认知训练与技术解决方案相结合，以应对生成式人工智能生成的错误信息。本研究通过眼动追踪测量的客观证据，为生成式人工智能素养和批判性思维教育领域做出了贡献，证明有针对性的干预能够显著改变认知处理策略。教育实践必须在培养批判性评价技能与培养对自身局限性的现实认知之间取得平衡，从而使学生成为日益复杂的数字信息环境中具有辨别力的消费者和负责任的创造者。

拓展

1- 什么是组间实验设计（between-group design）？与它类似的实验设计方法有什么？

组间实验设计（Between-Group Design）

定义：组间实验设计（又称被试间设计）是指将参与者随机分配到不同的独立组别中，一组接受实验处理（实验组），另一组不接受处理或接受对照处理（对照组），然后比较各组之间的结果差异。

核心特征：

每个参与者只接受一种实验条件

组别之间相互独立，无重复测量

通过随机分配控制混淆变量

与之类似的实验设计方法：

设计类型英文名称核心区别

组内设计Within-Group Design / Repeated Measures Design同一组参与者在不同时间点接受所有实验条件，进行自身前后对比

混合设计Mixed Design同时包含组间因素和组内因素，部分变量在不同组间比较，部分变量在同一组内比较

配对设计Matched-Pairs Design参与者按某些特征配对，每对中一人分配到一个组，另一人到对照组

单组前后测设计One-Group Pretest-Posttest Design只有一组参与者，比较处理前后的变化，无对照组

静态组比较设计Static-Group Comparison使用已经存在的组别（非随机分配），比较其差异

本文选择组间设计的理由：本研究需要比较"接受批判性思维干预"与"未接受干预"的效应，且为了避免学习效应（一旦接受训练就无法"撤销"），组间设计是最合适的选择。

2- Tobii Fusion眼动仪（120Hz采样率）是主流眼动仪吗？一般教育研究中还会用到什么样的眼动仪？120Hz采样率指的是什么呢？这在眼动仪中处在什么水平？

二、Tobii Fusion眼动仪及采样率

Tobii Fusion是否为主流眼动仪？

是的，Tobii Fusion是教育研究和心理学研究中的主流眼动仪之一。Tobii Pro Fusion是一款基于屏幕的远程眼动仪，具有以下特点：

Tobii Pro Fusion规格参数：

采样率：30 Hz、60 Hz、120 Hz 或 250 Hz（250 Hz非默认可用）

精度：0.04° RMS（最优条件下，应用滤波）/ 0.2° RMS（原始信号）

准确度：0.3°（最优条件下）

眼动追踪技术：角膜反射、暗瞳、立体几何

双眼追踪：支持

延迟：< 13 ms @ 250 Hz

教育研究中常用的其他眼动仪：

眼动仪型号类型采样率适用场景

Tobii Pro Spectrum屏幕式300/600/1200 Hz婴儿研究、精细时间分辨率研究

Tobii Pro Glasses 3穿戴式（眼镜）50 Hz 或 100 Hz移动场景、真实环境研究

Tobii X3-120屏幕式120 Hz教育研究、可用性测试

EyeLink 1000/1000 Plus头戴式/桌面式1000 Hz 或 2000 Hz高精度研究、阅读研究

SMI RED系列屏幕式60/120/250 Hz心理学实验

Gazepoint GP3屏幕式60 Hz入门级研究、预算有限项目

120Hz采样率的含义与水平

含义：采样率120Hz表示眼动仪每秒记录120次眼球位置数据，即每8.33毫秒（1000ms÷120）采集一个数据点。

水平评估：

采样率等级范围适用研究时间分辨率

低采样率30-60 Hz粗略注视分析、长时间阅读研究16.67-33.33 ms

中等采样率120 Hz教育研究、认知心理学、人机交互8.33 ms

高采样率250-500 Hz眼跳（saccade）精细分析、微眼动研究2-4 ms

超高采样率1000+ Hz神经科学、临床诊断、高精度时间研究<1 ms

120Hz在教育研究中的定位：属于中等偏上水平，完全满足教育研究的需求。

注视（fixation）的持续时间

眼跳（saccade）的路径

兴趣区内的注意力分配

认知负荷相关的瞳孔变化

对于本研究关注的"注视模式"和"兴趣区分析"，120Hz提供了足够的时间分辨率，同时兼顾了数据文件大小和计算效率的平衡。

3- 请简要介绍“Tobii Pro-Lab软件”的功能。定义兴趣区（AOI）的目的是什么？

Tobii Pro Lab是Tobii公司开发的专业眼动数据分析软件，广泛应用于心理学、教育学、人机交互等领域。根据搜索结果，其主要功能包括：

核心功能模块

1. 数据采集与管理

连接Tobii眼动仪（Fusion、Spectrum、Glasses等）进行实时数据记录

支持屏幕录制、场景摄像机（穿戴式眼动仪）和外部摄像机的同步

时间戳同步，确保眼动数据与刺激呈现精确对齐

2. 兴趣区（AOI）定义工具

静态AOI：在图像或视频帧上手动绘制矩形、圆形或多边形区域

动态AOI：随时间变化调整位置、形状和大小的兴趣区（适用于视频和动态场景）

批量处理：导出AOI文件并在多个项目间共享

AOI计算器：计算各兴趣区占刺激总面积的像素数和百分比

3. 事件识别与眼动指标计算

I-VT算法：基于速度阈值识别注视（fixation）和眼跳（saccade）

默认参数：眼跳速度阈值30-100°/s，注视持续时间阈值50-600ms

自动计算指标：

首次注视时间（Time to First Fixation）

首次注视持续时间（First Fixation Duration）

总注视持续时间（Total Fixation Duration）

注视次数（Fixation Count）

访问次数（Number of Visits）

访问持续时间（Visit Duration）

扫视次数（Number of Saccades）

4. 可视化功能

热力图（Heatmap）：用颜色编码显示注视密度（红色=高密度，黄色=中密度，绿色=低密度）

注视轨迹图（Gaze Plot/Scan Path）：显示注视点的顺序和持续时间

动态回放：叠加眼动轨迹的视频回放

5. 数据导出与整合

导出原始眼动数据（时间戳、 gaze点坐标、瞳孔直径等）

导出统计汇总表（Excel格式）

支持与其他软件（如SPSS、MATLAB、Python）进行后续分析

6. 特定研究支持

婴儿研究模式：简化校准程序，适应难以配合的参与者

多模态同步：与EEG、皮肤电反应等生理数据同步

定义兴趣区（AOI）的目的

兴趣区（Area of Interest, AOI）是眼动研究中的核心分析单元，其定义目的包括：

1. 聚焦研究问题

将视觉刺激划分为理论上重要的区域，使研究者能够针对性地检验假设。例如，本研究将人像划分为"面部区域"（眼睛、鼻子、嘴巴）和"背景区域"，以检验干预是否改变了学生的视觉搜索策略。

2. 量化注意力分配

通过计算各AOI的注视指标，实现注意力量化：

时间维度：在各区域花费多少时间（总注视持续时间）

空间维度：注视点的分布范围

序列维度：视觉扫描的路径和顺序

3. 比较不同条件

通过保持AOI定义的一致性，可以：

比较实验组与对照组的注视模式差异

分析同一参与者在不同刺激上的注意力变化

控制刺激大小和位置对结果的混淆

4. 关联行为与认知

根据"眼-心假设"（eye-mind hypothesis），注视位置反映即时认知加工：

较长注视持续时间 → 更深的认知加工或更高的加工难度

较多注视次数 → 更高的信息寻求或不确定性

首次注视时间 → 初始注意捕获或视觉显著性

5. 提高统计效力

将连续的 gaze 数据聚合到离散的区域，便于进行传统的统计检验（如t检验、ANOVA），同时减少数据维度和噪声。

通过比较两组在这些AOI上的注视模式，研究成功揭示了干预训练促使学生从"直觉式面部聚焦"转向"分析式全局扫描"的认知机制。

4- “内容包括图像分析的两个层面（指称层面和内涵层面）”其中指称层面和内涵层面是什么意思？

这两个概念源自符号学（Semiotics）和视觉修辞理论，用于分析图像的不同意义层次：

指称层面（Denotative Level）

定义：图像的字面意义或描述性内容，即"我们在图像中看到了什么"的客观描述。

在本研究中的具体含义：图像中存在的物理元素和视觉特征。可以直接观察到的内容，如：人脸、头发、眼睛、鼻子、嘴巴、背景物体等。不涉及解释或评价，纯粹是"这是什么"的描述。

示例："这张图片展示了一位年轻女性的面部特写，她有棕色长发，穿着白色上衣，背景是模糊的室内环境。"

内涵层面（Connotative Level）

定义：图像的象征意义、文化含义或情感联想，即"图像传达了什么信息"以及"我们可以给予什么解释"。

在本研究中的具体含义：图像引发的情感反应和主观评价。社会文化联想，如：吸引力、可信度、专业性、亲和力等。语境解读，如：这张图片适合什么场合？传达了什么氛围？

对图像"真实性"的直觉判断

示例："这张图片给人感觉不太自然，光线过于完美，可能是AI生成的"；"这张脸看起来很友善可信"；"背景模糊处理显得专业"。

两个层面的关系

维度指称层面内涵层面

性质客观、描述性主观、解释性

问题"我看到了什么？""这意味着什么？"

分析焦点物理特征、元素识别情感反应、文化含义

在深度伪造检测中的作用寻找技术瑕疵（不对称、模糊背景等）判断"感觉是否真实"、识别超现实完美感

本研究的干预设计：训练学生同时运用两个层面进行分析——既观察技术细节（指称），又质疑整体印象（内涵），从而培养更全面的批判性思维。

5- 最新的深度伪造检测策略有什么？

根据网站中的文章The Race to Detect Deepfake Videos: Challenges and Strategies，当前主流的深度伪造检测策略包括：

1. 行为特征分析（Behavioral Profiling）

语音模式分析：分析音调、音高、节奏和对话特征，标记与个体通常语音模式的偏差

微表情检测：识别不自然的面部肌肉运动或缺失的细微表情

2. 多模态深度伪造分析（Multimodal Analysis）

跨模态验证：同时分析视频、音频和上下文线索，发现单模态检测可能忽略的不一致性

音视频同步检测：检查唇动与语音的精确对齐，识别时间延迟或错位

3. AI水印与认证（AI Watermarking）

隐形数字水印：在AI生成内容中嵌入不可见的验证层，确认来源和所有权

区块链溯源：结合不可篡改的来源账本，维护内容完整性

4. 实时检测系统（Real-Time Detection）

边缘计算部署：在通信系统、会议工具中嵌入实时AI验证

低延迟分析：如Resemble AI的DETECT-2B模型，在200毫秒内实现94%的准确率

5. 频率域分析（Frequency-Domain Analysis）

噪声模式识别：分析图像的频谱特征，检测GAN生成图像特有的频率伪影

压缩痕迹检测：识别多次压缩或处理留下的痕迹

6. 生理信号检测（Physiological Signals）

心率变异性：通过面部颜色变化检测真实心率，与视频内容比对

呼吸模式：分析胸部起伏的自然性

7. 对抗训练与持续学习（Adversarial Training）

对抗攻击防御：针对故意扰动的深度伪造进行模型加固

自动重训练循环：使用新发现的伪造样本持续更新检测模型

8. 活体检测（Liveness Detection）

3D深度感知：检测面部是否具有真实的立体结构

光照一致性：分析面部光照与背景环境光是否物理一致

本研究采用的策略：主要结合了指称层面的技术瑕疵识别（如背景扭曲、不对称性）和内涵层面的批判性质疑（如质疑过于完美的外观），属于教育导向的"人工检测"策略。

6- 曼-惠特尼U检验是什么？

曼-惠特尼U检验（又称曼-惠特尼-威尔科克森检验，Mann-Whitney-Wilcoxon test）是一种非参数统计检验方法，用于比较两个独立样本的分布是否存在显著差异。它是独立样本t检验的非参数替代方法。

检验原理

合并数据：将两组数据合并，并按从小到大排序

赋予秩次：为每个数据点分配秩次（排名），最小值为1，最大值为N

计算秩和：分别计算两组的秩和（rank sum）

计算U值：通过公式计算曼-惠特尼U统计量

U值计算公式：U1=n1n2+2n1(n1+1)−R1

U2=n1n2+2n2(n2+1)−R2

其中，n1和n2是两组样本量，R1和R2是两组的秩和。

本研究使用曼-惠特尼U检验的原因

根据论文第11-12页，研究者在分析"感知到的识别成功率"时选择了曼-惠特尼U检验，原因包括：

1. 数据分布问题

自我评估的百分比数据（0%-100%）可能不服从正态分布

样本量相对较小（实验组n=24，对照组n=44）

2. 数据性质

自我评估是主观评价，属于顺序尺度数据

可能存在天花板效应（大量参与者高估自己，集中在高分段）

3. 稳健性考虑

非参数检验对分布形态不敏感，结果更可靠

避免因正态性假设违反导致的I类错误

本研究结果解读

论文报告："A Mann-Whitney U test indicatedno significant differencebetween groups in terms of participants' perceived identification of deepfake versus authentic images."

这意味着：

尽管实验组实际表现更好（52% vs. 35%正确率）

但两组在自我评估上无显著差异（68% vs. 66%）

这一发现支持了"元认知盲区"的存在——训练提升了实际能力，却未提升自我认知的准确性

7-邓宁-克鲁格效应是什么？

定义邓宁-克鲁格效应是一种认知偏差现象，指能力欠缺者在某一领域倾向于高估自己的能力水平，而高能力者则可能低估自己的相对表现。该效应由康奈尔大学心理学家大卫·邓宁（David Dunning）和贾斯汀·克鲁格（Justin Kruger）于1999年提出。核心机制元认知缺陷假说（Dual Burden）："无能者不仅能力不足，而且这种不足会剥夺他们认识到自身不足的能力。"具体表现为：能力低下者：缺乏准确评估自身表现所需的元认知技能能力较高者：假设他人也能轻松完成相同任务，从而低估自己的相对优势虚假一致性效应：能力低下者高估自己，同时高估他人的错误率。

四个阶段：愚昧之山（Mount Stupid）：新手因"无知者无畏"而极度自信绝望之谷（Valley of Despair）：随着学习深入，意识到知识盲区，自信骤降开悟之坡（Slope of Enlightenment）：持续学习后能力真实提升持续平稳高原（Plateau of Sustainability）：专家达到高水平，自信趋于理性

01 生成式人工智能背景下提升学生批判性思维素养：深度伪造内容检测的眼动模式研究

01 生成式人工智能背景下提升学生批判性思维素养：深度伪造内容检测的眼动模式研究

相关阅读更多精彩内容

友情链接更多精彩内容