AR测试分级阅读系统与STAR测评和蓝思阅读评价体系的互联与对应

首先，STAR和AR是独立的两个系统，它们是密不可分的

AR （Accelerated Reader）分级系统是一套非常精确的英文阅读分级系统。实际上英美两国，乃至全球都有很多学校和学生在使用。AR指数（也称G.E指数）采用10进位系统,后面加小数点来表示更精确的级别。0是最低，12.9是最高。

学校、家长和老师是如何知道孩子们的英文阅读水平所对应的AR指数（也称G.E指数）呢？于是有了STAR测评系统，这样，学生的英文阅读水平与书的分级就能对应起来。

AR 测试系统有庞大的题库，目前包含了18万多套针对分级读物和章节书的阅读理解题，并且每个月都在新增。在美国，STAR测评和AR测试系统均由学校或图书馆购买，安装到教室的电脑。美国老师会定期或者视情况让学生们去做STAR测评，根据测试结果建议的区间，选择适合学生自己阅读水平的图书。

STAR 测评系统和AR测试系统，同属于美国著名大数据在线教育软件公司Renaissance。

关于Star测试指数的具体含义

SS：scaled score，是指孩子本次测评的成绩得分，分数范围为0-1400。

PR：percentile rank，是指孩子目前的得分能够超过美国学生的百分比，例如，进行3年级的测评，结果是95，就代表这个测试成绩超过了95%的美国三年级学生。

GE：grade equivalent，是指孩子目前的阅读水平相当于美国孩子几年级第几个月的阅读水平，也就是我们最常说的GE Level，例如6.3，就代表相当于美国学生6年级第3个月的阅读中位值。

IRL：instructional reading level 是指孩子对哪个年级图书内容的理解&词汇的掌握程度均达到80%以上，例如5.9应该代表了孩子对于5年级快上完程度的书籍掌握程度达到80%以上。

Est. ORF: estimated oral reading fluency 是指孩子目前每分钟能够流利阅读的文字量。

ZPD：是指适合孩子阅读书籍的分级范围，这个范围内的书籍，不会使孩子感到因语言和词汇的缺乏造成的阅读障碍，同时也可以提高孩子的阅读能力。

另外还有其他一些方面的评分：

Word Knowledge and Skills : 是指词汇认知和理解能力；

Comprehension Strategies and Constructing Meaning: 是指阅读理解能力，即对文章内容和基本结构的分析理解能力；

Analyzing Literary Text: 是指阅读分析能力, 即对文章内容、情节、角色的深入分析能力；

Understanding Author’s Craft：是指对作者修辞写作手法运用的分析理解能力；

Analyzing Argument and Evaluating Text：是指判断、推理等思维能力，即对书籍及其所论述的观点有自己的判断和见解。

这些指标的满分都是100分。

1.1

STAR Test 英语阅读能力测评系统

STAR Test用于测评学生的阅读程度，同时根据测试报告和成长报告对学生的学习效果进行监督与指导。美国超过三分之一的学校（约6万所学校）都在使用STAR Test，STAR Test由学校购买，安装到教室的电脑。美国老师会定期或者视情况让学生们去做Star Reading assessment，测出每个学生的阅读年级值、Lexile值、最近发展区等。根据测试结果建议的区间，学生选择适合自己阅读水平的图书。

STAR Test获得最佳评测系统荣誉，通过400个以上研究课题，其效果得到证明和认可。

1.2. STAR Test 四大优势

a.评测时间短：15-20分钟就能完成在线测试。

b.评测结果客观、全面、具体：涉及5大领域的36项阅读技能，可在多个层面评估学生的阅读能力级别（细分到几年级第几个月水平）和阅读速度等指标，并可以与美国在校学生实时比较；

c.科学的电脑自适应出题：根据学生答题情况，系统自动、有针对性地给出合适难度的测试题目。

d.专业的后台管理系统：基于大数据分析技术，根据每个学生不同情况，设定短期目标和长期目标，并提供阅读指导。

1.3 如何测评？

举个例子，假设一个新学生叫小华，老师不了解他的阅读水平，就让他去电脑上去测试。小华到电脑上去答题，这是一个自适应性测试，即由电脑给出阅读篇章和选择题，小华做对一道题，电脑就会推出更难的下一题，小华做错一道题，下一题则自动降低难度。

20分钟后，测试结束，电脑自动生成一个报告，汇报小华的GE（Grade Equivalent）为5.5，即他的阅读水平相当于5年级第五个月的中位数水平，ZPD（最近发展区）为3.7-5.7，即他的选书范围在3.7至5.7之间。在这份报告中，还显示小华的阅读水平高于本年级的标准（benchmark），在同年级学生中的百分比（Percentile Rank）为79，即他的阅读能力比79%美国同年级学生强。报告还显示，小华的最佳教学程度（Instructional Reading Level）是5.0，即老师对他进行教学，最好是拿五年级水平的材料。

1.4 STAR Test 测评解读

1.4.1

报告第一部分：评价被测试者的总体情况

测评结果分为了：

红色Urgent Intervention（需紧急干预）

黄色Intervention（需干预）

蓝色On Watch（需关注）

绿色At/Above Benchmark（标准以上）

1.4.2.

STAR Reading Scores

主要指标

Lexile：该材料的蓝思分级

PR：测试者的分数超越了美国同年级孩子的百分比

GE：和美国哪个年级的阅读水平相当：2.6（即相当于美国2年级第6个月的阅读水平）

IRL：独立阅读水平

Est.ORF：流利度 73 （每分钟能够正确阅读的字数为73个单词）

这里面家长普遍比较关心的是GE等级，也热衷于拿这个数据相互比较。然而同样年龄的中国小朋友，GE成绩可能天差地别。

另外，阅读速度这一指标也很重要。有不少正确率还不错的孩子，因为阅读速度太慢，严重拉低了GE等级。那么阅读速度如何提升？答案还是：多读书！

1.4.3

Domain Scores 细项分数

主要指标

Word Knowledge（词汇量）

Comprehension and Meaning（阅读理解）

Literary Text（阅读分析）

Author's Craft（理解作者意图）

Argument（分析判断和推理能力）

这些细项分数均为百分制。分数越高，答题正确率越高。教师可以通过细项分值评判学生的具体能力。一般来说，80+是可以接受的成绩，优秀的达到95+。

1.4.4

Reading Recommendation

报告这部分同时给出了两个Zone of Proximal Development（推荐阅读范围）。

AR 体系：3.7-5.7

这个分值区间可对我们后续书籍的选择起了很大的作用！

现在开始正式介绍比较主流的阅读分级体系：

2.1、GRL／Guided Reading Level

GRL／Guided Reading Level，又称A-Z分级法，即按照26个字母顺序将图书分成26级。

A-Z是由凡塔斯和皮内尔两位阅读专家（Fountas &Pinnell）开发的一套图书分级系统。A-Z法是一个应用较广泛的分级方法，很多数据库采用其分级作为检索项，或用以标注图书级别。

但是，它只有对英文书的分级，而没有对读者英文阅读水平的测试。（别着急，后面的第四种体系DRA可测试读者阅读水平，两者相互补充）。

该分级最多到Z（美国小学六年级水平），这样英文阅读水平达到及超过美国初中水平的孩子就不适合使用这套系统。

2.2

AR/Accelerated Reader

Accelerated Reader (AR)分级法，又称为Grade Equivalent Level(GEL)，评价读者的阅读水平等同于美国学生哪一年级第几个月阅读水平。

如：AR 2.5表示美国小学二年级第五个月英文阅读等同水平。

AR 由英国Renaissance Learning公司开发，很多学校和学生在使用AR系统。AR的级别最高可以到美国高中G12 年级水平。目前只有蓝思分级和AR分级能到达这个G12年级阅读分级水平。

Renaissance开发的测评学生英文阅读水平的STAR（Standardized Test for the Assessment of Reading）测评系统，可以告诉家长学生的AR分值。这样学生的英文阅读水平与书的分级就能对应起来。

3、Lexile蓝思分级

Lexile分级体系是美国Metametircs, Inc.教育公司研究开发出来的，是在美国应用最广的阅读分级体系。

蓝思(Lexile)是衡量读者阅读水平和标识出版物难易程度时使用的单位。简单来说，一个蓝思(Lexile)是一个难度单位，读懂一本初级低幼读物与读懂一本百科全书之间差距的千分之一被定义为1个Lexile。蓝思最高分值为1700L。

您可以登陆lexile网站，查询书籍对应的蓝思值。以举例的《大卫去上学》为例，查询结果显示BR，适合初级阅读小朋友。

Lexile分级体系除了针对图书的评估，还有对个人阅读能力的评估。Lexile提供了两种办法进行阅读水平的测试。比较准确的办法是参加经过精心设计的Lexile标准化测试。而对很多年龄偏小，或者暂时不想参加托福考试的学生来说，根据年级进行粗略估计也是可以的。

美国主要的学术及语言测验如SAT（学术能力测验）、 TOEFL（托福）、GRE（美国研究生入学考试）、DIBELS（Dynamic Indicators of Basic Early Literacy Skills，早期基础读写技能动态指标考试，针对1-3年级学生）、TABE（Testof Adult Basic Education，成人基础教育考试）、重要的标准化考试等均有对应的转换对应表和蓝思分值。

如托福网考（iBT）阅读成绩20分，其蓝思分值为 1260L，分值区间为：1160L-1310L；阅读成绩10分，其蓝思分值为1040L，分值区间为：940L-1090L。

4、DRA /Developmental Reading Assessment

DRA是培生公司的一套用来测定少儿英文阅读能力的一个系统。教师或家长可根据测试结果来寻找水平适合的图书，以提高少儿阅读能力。测试内容着重读者阅读的准确度、熟练度和理解程度等，其目标是帮助每一个学生成为独立、成功的读者。其分值范围为1-80。

DRA的应用很普遍，很多学校用DRA测试孩子英文阅读水平，然后为孩子推荐A-Z系统的分级图书。

蓝思分级阅读测评体系 (www.Lexile.com) 可以匹配读者的阅读能力和读物的难度等级，从而辅助教师、家长为孩子选择适合的读物。蓝思阅读测评体系是美国Metametircs教育公司受美国国家卫生研究院（National Institute of Health）资助，经过15年的研究开发出来的。在美国，蓝思阅读测评体系的使用机构遍布50个州，大约覆盖了美国全国学生人数的50%。

蓝思阅读测评体系从读物难度和读者阅读能力两个方面进行衡量，使用的是同一个度量标尺，因此读者可以根据自己的阅读能力，轻松地选择适合自己的读物。蓝思阅读测评体系使用数字加字母“L”作为衡量难度的度量标尺，难度范围为0L~1700L，数字越小表示读物难度越低或读者阅读能力越低，反之则表示读物难度越高或读者阅读能力越高。

蓝思阅读测评体系如何衡量读物难度

蓝思阅读测评体系主要从两个维度来衡量读物难度，即语义难度（Semantic Difficulty）和句法难度（Syntactic Complexity）。

语义难度：一个词汇在阅读当中出现的频率越高，即越常见，读者就会越熟悉，相应阅读起来难度就会越低；相反，读者在阅读中遇到的词汇越不常见，阅读难度就越高。这是蓝思测评体系使用词汇频率作为衡量语义难度的基本理念。然而蓝思使用的词汇频率并不简单指某一个词出现在某一篇文章中的频率，而是通过大型语料库计算得出的频率。具体计算方式为：在6亿词汇量的语料库中，计算出某一个词汇在每5百万词出现次数的对数（log），并以此对数作为词汇频率。因此，读物中的词汇频率越高，蓝思等级越低，从而读物越简单；词汇频率越低，蓝思等级越高，即读物越难。

句法难度：研究表明句子越长，难度就越高。因为长句子的从句（clauses）较多，读者不仅要接收更多的信息，还要处理更复杂的句子关系，同时也要拥有更好的短时间记忆能力。因此，句子越长，蓝思等级越高；相反，句子越短，蓝思等级越低。

蓝思体系在计算一篇文章的难度时，会先将文章按125-140不等的单词自然分段，每一段成为一个slice。然后通过一个代数公式（Lexile equation）把每个slice的词汇频率和句子长度综合运算，得出这个slice的蓝思等级，最后，再对所有slice的蓝思等级进行平均，计算出这篇文章的蓝思等级，具体示例如下：

如例，《哈利·波特与魔法石》的总字数是76896字，平均每句话11.94个单词，蓝思词汇频率计算为3.25185，综合下来，这本书的蓝思等级是880L。

在计算蓝思级别低于200L的文本或文本字数少于500个单词时，由于这类文本文字较少，插图较多，语句重复性往往比较高，所以仅仅考虑语义难度和句法难度容易会产生误差。因此，一般会在按公式计算出的蓝思级别的基础上减去120L，并且根据图书特点在级别前标注特殊符号。这些符号如下：

AD=Adult Directed

家长指导书籍。这类读物一般都是带有文字的绘本，适合家长陪同学龄前儿童一起阅读。NC=Non-Conforming

非常规书籍。这类读物的语言难度一般超过了目标读者的阅读能力。适合阅读能力高于平均水平的读者阅读。

HL=High-Low

趣味性高但难度低的书籍。适合较高年级阅读能力较低的学生。

IG=Illustrated Guide

图释。一般是百科全书。

GN=Graphic Novel

连环画或漫画。

BR=Beginning Reading

初级读物。

NP=Non-Prose

非散文性文章。如诗歌、歌词或者菜谱。此类文章无法评定蓝思等级。

以上的符号会出现在蓝思等级数字之前，如AD780L。

蓝思阅读测评体系如何衡量读者阅读能力

蓝思对现有的标准阅读测试中的读物，比如Scholastic Reading Inventory（SRI）, 先进行读物蓝思等级评级，在评测出读物的蓝思等级后，根据读者对不同等级阅读题目的作答，综合分析读者的阅读能力。所分析的方面包括：题目的理论难度、题目的实际难度、题目的质量、平均作答正确率、学生年级、参加测试学生总数、题目每个选项选择的具体人数，之后会通过Rasch model软件分析以上数据，最终得出读者阅读能力水平。

读物难度与读者阅读能力匹配

蓝思阅读测评体系采用相同的度量标尺衡量读物难度和读者阅读能力，因此读者可以根据自己的蓝思等级轻松选择适合自己的读物，如读者阅读能力为880L，就可以选择880L左右的读物进行阅读，读者对该读物的理解程度会是75%——这个难度既不会让读者因无法驾驭读物而失去信心，也能对读者现有的能力提出挑战，激发他们阅读和学习的兴趣，鼓励读者不断地取得进步。

AR测试分级阅读系统与STAR测评和蓝思阅读评价体系的互联与对应

AR测试分级阅读系统与STAR测评和蓝思阅读评价体系的互联与对应

相关阅读更多精彩内容

友情链接更多精彩内容