88
SBEP 学学学学学学学学学学学学学 2007.2 学学 背背背背背 背背背背 背背背背 背背背背 背背 背背 背背背背背背背 西 (背西 ) 背背背背背背 背背背背背背 背背背背背背背背背背 背背背 西 [email protected]

中英西南基础教育项目(广西)学生学习进步测试试题编制

  • Upload
    ilyssa

  • View
    60

  • Download
    0

Embed Size (px)

DESCRIPTION

中英西南基础教育项目(广西)学生学习进步测试试题编制. 广西师范大学教育科学学院 韦义平. [email protected]. 内容导航. 项目背景. 内容与产出. 项目愿景. 研讨会主要内容. 会议议程. 学生进步国际评价方式. TIMSS/PIRLS. PISA. PISA 语文测查内容. PISA 数学测查内容. 多队列追踪评价模式. 希望回答的问题. 要解决的问题. 应对要点. 标准化测试要求. 各省命题任务. 测题标准与题型. 数学. 3 年级. 5 年级. 7 年级. 9 年级. 题目量:. 语文. 3 年级. - PowerPoint PPT Presentation

Citation preview

Page 1: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

中英西南基础教育项目 ( 广西 )

学生学习进步测试试题编制

广西师范大学教育科学学院 韦义平

[email protected]

Page 2: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

内容导航项目背景 项目愿景内容与产出

研讨会主要内容 会议议程

学生进步国际评价方式 TIMSS/PIRLS PISA

PISA 语文测查内容语文测查内容 PISAPISA 数学测查内容数学测查内容

多队列追踪评价模式 希望回答的问题 要解决的问题 应对要点

标准化测试要求 各省命题任务 测题标准与题型

题目量: 数学 3 年级 5 年级 7 年级 9 年级语文 3 年级 5 年级 7 年级 9 年级

测题编制技术与要求 题型分配 模块 锚题 成果

命题分组 进度

Page 3: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

项目背景• 中英甘肃基础教育项目 取得了很多成功经验(改善办学条件;促进教育公平;开发

培训材料;开展全员培训;完善教育管理体制;加强师范院校能力建设;开展相关研究)

• 新的合作意向: 向西南地区推广甘肃项目的经验; 配合政府项目,加强软件建设,注重人员及机构能力的提高 ; 关注最弱势群体(项目省、县的选择)。

Page 4: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

新项目的合作重点及特点• 项目定位:发挥政府的主导作用,配合我国当前

教育政策和教育发展重点工作实施项目,并围绕《国家西部地区“两基”攻坚计划》,结合《 2003 - 2007 年教育振兴行动计划》有关内容和目前农村教育工作重点,以西南地区为项目目标地区,开展项目活动,实现相关地区“两基”攻坚目标,提高教育质量,改善相关地区基础教育水平。

• 项目特点:配合政府项目,加强软件建设,注重人员及机构能力建设 ;关注最弱势群体(项目省、县的选择)。

Page 5: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

项目目标地区

• 项目省(区) 云南省、四川省、贵州省、广西壮族自

治区

• 项目县( 27 县) 国家级贫困县 到 2002 年底尚未实现“普九”

Page 6: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

项目主要内容(产出)• 贫困学生资助 : 资助初中寄宿制贫困学生,优

先考虑弱势群体,如贫困儿童、女童、少数民族儿童和残疾儿童;

• 教师培训:包括教育管理人员的培训,相关培训资源开发及教师培训系统的建设;

• 学校发展计划:校长培训,以改善学校管理,同时促进社区参与;

• 监测与评估:本项目;义务教育;• 社会发展和制度发展:公平意识,完善机构等

Page 7: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

项目愿景

愿景: 通过软件建设,有效的配合政府项目,加强人员和机构能力建设,提高政府实施基础教育项目的能力,以更好的惠及最弱势儿童,包括贫困家庭的儿童、女童、少数民族儿童和残障儿童。

(让软的硬起来、让硬的更硬)

Page 8: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

贫困学生资助

• 产出一:弱势儿童,特别是初中阶段的女童公平接受九年义务教育的机会得到增加。

• 愿 景: 为了所有的孩子受到平等的教育机会 给予少数民族等弱势儿童以更多的关注 提高政府相关政策执行的有效性

Page 9: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

教师培训• 产出二:通过提高教师发展系统的能力,改

善教与学的效果,以触及最弱势的儿童。

• 愿 景: 一个都没少;个个学得好; 机制更完善;能力有提高。

Page 10: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

学校发展计划

• 产出三:学校管理系统得到改善,从而提高弱势儿童的福利,重点在于提高校级管理水平和改进学校管理标准。

• 愿 景: 让学校成为孩子们的乐园,成为社区内

学习交流的场所

Page 11: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

监测与评估

• 产出四:监测与评估系统能力得到提高,以将政策及实践导向支持最弱势的儿童。

• 愿 景: 烧一把火 加一盘菜 (在中国政府工作的基础上,项目帮助

政府把普九工作做得更好)

Page 12: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

社会发展和制度发展

• 产出五:教育系统的能力得到提高,从而更好的满足最弱势儿童的需要。

• 愿 景: 让项目的阳光照到项目区的每一个角落; 让所有相关的人与机构为孩子们服务 让每一个孩子享受有质量的教育

Page 13: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

项目管理框架图项目高级管理小组

国家项目办

跨省管理小组

省项目办 省项目办 省项目办 省项目办

项目县( 27个贫困县)

部内工作小组

项目技术支持小组

Page 14: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

县项目办• 人员:至少 6 人负责项目 5 各领域产出县级财务管理

• 职责:全面协调项目在本县范围内的活动;根据本县项目实施具体情况制定管理制度和细则,并报省项目办备案;草拟本县项目活动年度计划及预算;负责本县所有项目活动的实施和财务管理;及时总结和评估项目活动的质量及成效;具体协调县级其他部门在项目实施过程中的参与;监测本县项目实施进展,并每半年向省项目办提交一份书面报告;其他项目事宜。

Page 15: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

本次研讨会主要内容• 主要目标

为编制 SBEP (广西)学生成绩测试试题作准备。

• 主要内容中英西南基础教育项目学生学业成绩测试的指导思

想、测试方式、内容选择、题目结构、阶段衔接等。商定编制的具体进程。

Page 16: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

会议日程2.8 8:30-9:50 学生学业成绩评价模式 :TIMSS 与 PISA 9:50-10:10 休息 10:10-11:30 讨论 :SBEP 学生学业成绩评价的指导思想

14:30-15:50 多队列追踪评价模式的实施方法和技术 15:50-16:00 休息 16:00-17:30 试题编制分组 , 小组讨论测试方案

2.9 8:30-9:50 小组汇报测试方案与学科组交流 9:50-10:10 休息 10:10-11:30 样题讨论

14:30-15:50 各小组预编测试题 15:50-16:00 休息 16:00-17:00 各小组预编题讨论、交流 17:00-17:30 学生学业成绩测试日程计划

Page 17: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

学生学业成绩评价模式

TIMSS/PIRLS 与 PISA Models forInternational Assessment

TIMSS/PIRLS and PISA

Page 18: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

What is TIMSS/PIRLS?• Trends in International Mathematics and Science Study: Progress in

International Reading Literacy Study

TIMSS: 国际数学与科学学习倾向测验PIRLS: 国际基本读写学习进步测验

• Internationally standardised sample-based assessments of grade 4 (TIMSS and PIRLS) and grade 8 (TIMSS only) students.

• Administered to at least 4,500 students in each country.

• About 420 minutes of testing at grade 8, and 330 minutes at grade 4; but students take different subsets of test items.

• Students, principals and teachers complete background questionnaires.

• Tests based on school curriculum, objectives specific to grades 4 and 8.

• In the background study, curricula are compared, and core topics identified.

• Paper-and-pencil tests are used, a total of two hours per student.

• Items are a mixture of multiple-choice and constructed-response.

• Half the items are devoted to measuring trends.

Page 19: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

What is PISA?• Programme in International Student Assessment

PISA: 国际学生评估程序• An internationally standardised sample-based assessment of 15-year-olds, implemented in 56

countries (2006 cycle).

• Between 4,500 and 10,000 students tested in each country.

• PISA covers reading, mathematical and scientific literacy. Each cycle explores one domain in depth: reading in 2000, mathematics in 2003, and science in 2006.

• Tests based on important knowledge and skills needed in adult life, not the school curriculum.

• Emphasis on mastery of processes, understanding of concepts and ability to function in various situations.

• Paper-and-pencil tests, two hours for each student; mixed multiple-choice and constructed response items.

• Total 390 minutes of testing; but different students answer different subsets of items.

• Students and school principals answer a background questionnaire.

• Assessment takes place every three years with a plan in place to 2015.

Page 20: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Similarities and Differences

• Both are sample-based international assessments – assessing the system, not individuals

• Both use background questionnaires

• But they are applied at different points (TIMSS at grades 4 and 8; PISA at grade 9)

• TIMSS at intermediate grades; PISA at the end of basic education.

• Their different approaches reflect this.

Page 21: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

The Primary Aim of the PISA Assessment • To determine the extent to which young people have acquired the wider knowledge

and skills in reading, mathematical and scientific literacy that they will need in adult life.

• Assessment of competencies is cross-curricular because:

– Application of specific knowledge acquired in school depends crucially on the acquisition of broader concepts and skills.

– For example, in mathematics, being able to reason quantitatively and to represent relationships or dependencies is more valuable in everyday life than the ability to answer familiar textbook questions.

– A focus on curriculum content might restrict attention to common elements, and make the assessment too narrow to inform governments about the strengths and innovations in the education systems of other countries.

– Broad skills including communication, adaptability, flexibility, problem solving and the use of information technologies, essential for students, are developed across the curriculum and assessing them requires a broad cross-curricular focus.

Page 22: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

PISA Definition of Mathematical Literacy

• the situations or contexts in which the problem is located;

• the mathematical content used to solve the problem, organised by certain overarching ideas; and

• the competencies that connect the real world, in which problems are generated, with mathematics, to solve the problems.

Mathematical literacy is the capacity to identify and understand the role mathematics plays in the world, to make well-founded judgements and to use mathematics in ways that meet the needs of that individual’s life as a constructive, concerned and reflective citizen.

Three components must be distinguished:

Page 23: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

PISA Mathematical Content

• Space and shape

• Change and relationships

• Quantity

• Uncertainty

PISA mathematical content is defined by four overarching ideas:

Quantity includes:

• number sense (inc. relative size, different representations of, equivalent forms of numbers);

• understanding the meaning of operations (e.g. comparisons, ratios and percentages);

• having a feel for the magnitude of numbers (e.g., length, area, volume, height, speed, mass, air pressure, money value);

• elegant computations;

• mental arithmetic; and

• estimation (inc. providing rationale for the selecting data and level of precision required).

Page 24: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

The PISA competencies• Thinking and reasoning: posing questions; knowing the kinds of answers that

mathematics offers; understanding and handling the extent and limits of given mathematical concepts.

• Argumentation: knowing what mathematical proofs are; following and assessing mathematical arguments; and creating and expressing mathematical arguments.

• Communication: expressing oneself, on matters with a mathematical content, and understanding others’ mathematical communication.

• Modelling: translating reality into mathematical structures; interpreting mathematical models in terms of reality; working with a mathematical model.

• Problem posing and solving: posing, formulating and defining different kinds of mathematical problems, and solving different kinds of mathematical problems in a variety of ways.

• Representation: decoding, encoding, translating, interpreting different forms of representation of mathematical objects and situations.

• Using symbolic, formal and technical language and operations: and understanding its relationship to natural language.

• Use of aids and tools: knowing about, and being able to use, various aids and tools that may assist mathematical activity.

Page 25: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

PISA Competency ClustersPISA does not test competencies individually. Rather, competencies are clustered

Page 26: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

The TIMSS Curriculum Model

• TIMSS uses the curriculum as its major organizing concept.

• The TIMSS curriculum model has three parts: the intended curriculum, the implemented curriculum, and the achieved curriculum.

• These represent: the mathematics society intends students to learn; what is actually taught in classrooms; and, what students learned.

Page 27: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

The TIMSS Analysis Model

• TIMSS uses curriculum-based achievement tests to describe student learning

• Achievement results are related to information about the intended curriculum, teacher preparation, experience, and attitudes, instructional approaches, the organization and resources of schools and classrooms, and the experiences and attitudes of the students in the schools.

• TIMSS therefore allows countries to compare their curricula with international practices, as well as assessing learning achievement based on major curriculum goals.

Page 28: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

TIMSS Content Domains

At fourth grade, the Algebra content domain is called Patterns, Equations, and Relationships.

Content Domain Gr. 4 Gr. 8

Number 40% 40%

Algebra[1] 15% 25%

Measurement 20% 15%

Geometry 15% 15%

Data 10% 15%

The table shows the target percentages of testing time devoted to each content domain for both the fourth and eighth grade assessments.

Page 29: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Topic Areas: Number

• Whole numbers(整数、全数 )

• Fractions and decimals( 分数和小数 )

• Integers(整数 )• Ratio, proportion, and percent(比、比例、百分数

Each content domains is a separate analysis and reporting category. Each is divided into topic areas. For example, “Number” is divided into:

Page 30: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Number: Specific Objectives

• Represent whole numbers using words, diagrams or symbols, including recognizing and writing numbers in expanded form.

• Demonstrate knowledge of place value.

• Compare and order whole numbers.

• Identify sets of numbers according to common properties such as odd and even, multiples, or factors.

• Compute with whole numbers.

• Estimate computations by approximating the numbers involved.

• Solve routine and non-routine problems, including real-life problems.

Each topic area is subdivided into grade-specific assessment objectives written in terms of student understandings or abilities that items aligned with these objectives are designed to elicit. The grade 4 specific objectives for “Number” are:

Page 31: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

TIMSS Cognitive Domains • Students need to be familiar with mathematics content ; but cognitive skills are just

as important.

• As an aid in developing balanced tests in which appropriate weight is given to each cognitive domain across all topics, a full set of desirable learning outcomes mathematics educators is essential.

• Descriptions of the skills and abilities that will be assessed along with the content are thus defined in detail in the frameworks.

• These skills and abilities have been classified into four cognitive domains as in the table below.

Grade Cognitive Domain

4th 8th

Knowing Facts and Procedures 20% 15%

Using Concepts 20% 20%

Solving Routine Problems 40% 40%

Reasoning 20% 25%

Page 32: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Example: Knowing Facts and Procedures• Facility in using

mathematics, or reasoning about mathematical situations, depends primarily on mathematical knowledge.

• The more relevant facts a student is able to recall, the greater the potential for engaging a wide range of problem-solving situations

• Procedures form a bridge between more basic knowledge and using mathematics to solve routine problems.

Recall Recall definitions; vocabulary; units; number facts; number properties; properties of plane figures; mathematical conventions (e.g., algebraic notation such as a × b = ab, a + a + a = 3a, a × a × a = a3, a/b = a ÷ b).

Recognize/Identify Recognize/identify mathematical entities that are mathematically equivalent, i.e., areas of parts of figures to represent fractions, equivalent familiar fractions, decimals, and percents; simplified algebraic expressions; differently oriented simple geometric figures.

Compute Know algorithmic procedures for +, –, ×, ÷, or a combination of these; know procedures for approximating numbers, estimating measures, solving equations, evaluating expressions and formulas, dividing a quantity in a given ratio, increasing or decreasing a quantity by a given percent. Simplify, factor, expand algebraic and numerical expressions; collect like terms.

Use Tools Use mathematics and measuring instruments; read scales; draw lines, angles, or shapes to given specifications. Use straightedge and compass to construct the perpendicular bisector of a line, angle bisector, triangles, and quadrilaterals, given necessary measures.

Page 33: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

The PISA Assessment Structure

• Total testing time for mathematics is distributed as evenly as possible across the four overarching ideas (space and shape, change and relationships, quantity and uncertainty)…

• …and across the four situations described in the framework (personal, educational/occupational, public and scientific).

• The proportion of items reflecting the three competency clusters (reproduction, connections and reflection) is about 1:2:1.

Page 34: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

A Format for a TIMSS Table of Specification

Content Strand

Number Sense, Properties & Operations

Measure-ment

Geometry & Spatial

Sense

Data Analysis, Statistics & Probability

Algebra & Fractions

Conceptual Underst’ding

Procedural Knowledge

Mat

hem

atic

al

Ab

ilit

ies

Problem Solving

Page 35: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Item Types

• Unsuitable Question Types: true-false (because it encourages guessing); multiple choice with fewer than four options (also encourages guessing); multiple-part matching items (complex scoring, tendency to test the same objective several times), “essay-type” constructed-response (i.e., those with a long scale and a relatively open scoring rubric).

• Suitable Question Types: multiple choice with four or more options; dichotomously-scored (“closed”) constructed-response; and partial-credit (“open”) constructed response with a short scale (e.g., 0-1-2) and a clear, easily followed marking scheme.

– Multiple Choice Questions (MCQs) can be scored reliably without complex instructions; they can be scored quickly and objectively; they are easily analysed statistically, and tend to be relatively valid and reliable. They are usually short, so students can answer a relatively large number in a given time, improving curriculum coverage. But because the options often guide test-takers, they are an imperfect guide to a test-taker’s knowledge of specific points.

– Constructed Response Items do not “lead” test takers in the way that multiple-choice does, so are a more reliable guide to knowledge of specific goals. Some aspects of content (e.g., ability to plan, organise, present arguments) can only be tested through constructed response items. But they are more difficult to score, and may be less reliable, than MCQ. This is particularly true of partial-credit items; the longer the scale, the less reliable the distinctions that have to be made.

Some question types are more suitable than others for large-scale testing. In general, questions should test a single specific objective, and should be objectively-scored. Variety in format is not necessarily a virtue; but simplicity of format and language most definitely is.

In PISA, about one-third of the items are in multiple-choice response type, about one-third in closed constructed response type, and about one-third in open-constructed response type.

Page 36: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

A PISA Multiple-Choice ItemBased on experience, the multiple-choice type is generally regarded as most suitable for assessing items that would be associated with the reproduction and connections competency cluster.

The example shows a multiple-choice item associated with the connections competency cluster. Students must translate the problem into mathematical terms, devise a model to represent the periodic nature of the context described, and extend the pattern to match the result with one of the given options.

Example: SEAL

A seal has to breathe even if it is asleep. Martin observed a seal for one hour. At the start of his observation the seal dived to the bottom of the sea and started to sleep. In 8 minutes it slowly floated to the surface and took a breath. In 3 minutes it was back at the bottom of the sea again and the whole process started over in a very regular way.

Question: After one hour the seal was:

A. At the bottom B. On its way up C. Breathing D. On its way down

Page 37: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

A PISA Closed-Constructed Response Item

• Closed-constructed response items pose questions similar to multiple-choice items, but students are asked to produce a response that can be easily judged to be either correct or incorrect.

• For items in this type, guessing is not likely to be a concern, and distractors (which influence the construct that is being assessed) are not necessary.

• The example shows a closed-constructed response item with one correct answer and many possible incorrect answers.

Page 38: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Example: FARMS

The attic floor, ABCD in the model, is a square. The beams that support the roof are the edges of a block (rectangular prism) EFGHKLMN. E is the middle of AT, F is the middle of BT, G is the middle of CT and H is the middle of DT. All the edges of the pyramid in the model have length 12 m.

Question: Calculate the area of the attic floor ABCD. The area of the attic floor ABCD = ............................ m²

Below is a student’s mathematical model of the farmhouse roof in the shape of a pyramid, with measurements added.

Page 39: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

A PISA Open-Constructed Response Item

Open-constructed response items require a more extended response, and may involve higher-order thinking. Student may be asked to show the steps taken or to explain the answer.Such items allow students to respond at a range of levels of mathematical complexity. Marking the responses may require an element of professional judgement. There is potential for disagreement between markers.

Region Surface

area (Km2) % of total

area 1980 Population

(millions) % of total

population

Java/Madura 132,187 6.95 91.281 61.87

Sumatra 473,606 24.86 27.981 18.99

Kalimantan (Borneo) 539,460 28.32 6.721 4.56

Sulawesi (Celebes) 189,216 9.93 10.377 7.04

Bali 5,561 0.30 2.470 1.68

Irian Jaya 421,981 22.16 1.145 5.02

TOTAL 1,905,569 100.00 147.384 100.00

Data of the population of Indonesia and its distribution over the islands is shown in the table.

One of the challenges Indonesia faces is the uneven distribution of the population. From the table we see that Java has less than 7% of the total area, but almost 62% of the population.

Question: Design a graph (or graphs) showing the uneven distribution of the Indonesian population.

Page 40: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

TIMSS Booklet Design

• A valid assessment of the TIMSS content (mathematics and science together) would take at least seven hours at grade 8 and more than five and a half hours at grade 4.

• It is not reasonable to expect each student to answer so many questions.

• Based on experience, testing time should not exceed 90 minutes for grade 8 and 65 minutes for grade 4, plus 15-30 minutes for the student questionnaire.

• TIMSS therefore divides the assessment material among students.

Page 41: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Allocation of Items to Blocks

• The items in the pool are first grouped into clusters or blocks of items. In TIMSS 2003, there were 28 blocks, 14 in mathematics and 14 in science.

• Eighth-grade blocks contain 15 minutes of assessment items and fourth-grade blocks 12 minutes; otherwise the general design is identical.

• TIMSS includes items from earlier assessments to measure trends as well as new items.

• Of the 14 item blocks in each subject, six (blocks 1 through 6) contain items from earlier TIMSS assessments, eight (blocks 7 through 14) contain new replacement items.

Page 42: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Page 43: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Block Design for Student Booklets• The main aim is to maximize coverage of the framework while ensuring

that every student responds to sufficient items to provide reliable measurement of trends in both mathematics and science.

• A further aim is to ensure that trends in the mathematics and science content areas can be measured reliably.

• To make linking among booklets, at least some blocks had to be paired with others. Since the number of booklets would be very large if each block were paired with all other blocks, block combinations were chosen to keep the number of student booklets to a minimum.

• The 28 assessment blocks are distributed across 12 student booklets.

• Each student booklet consists of six blocks of items. Half the booklets will contain four mathematics blocks and two science blocks, and the other half will contain four science blocks and two mathematics blocks.

• The same booklet design is used at both fourth and eighth grade.

Page 44: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

Page 45: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

The Student’s View• Each student will complete

one of the twelve student booklets and a student questionnaire.

• The booklets are distributed so that approximately equal numbers of students respond to each.

• The individual student workload is 72 minutes for the test and 30 for the questionnaire at grade 4, 90 and 30 at grade 8.

Page 46: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

PISAPISA 语文测查内容语文测查内容• 读写字词读写字词 (( 掌握使用书面材料的基掌握使用书面材料的基本本 工具工具 );); • 拼音拼音 (( 使用书面的材料使用书面的材料 ,, 有效地参与有效地参与社会社会 活动活动 ););

• 字词理解字词理解 (( 在不同环境下对词语的在不同环境下对词语的理理 解解 ,, 包含几种层次的理解包含几种层次的理解 :: 直接的解直接的解释释 ,,

一些简单的推论一些简单的推论 ););

Page 47: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

•阅读理解阅读理解 ( 实现个人的目标或发展个实现个人的目标或发展个人知识与潜能并有效地参与社会的能人知识与潜能并有效地参与社会的能力力 ,, 包含包含 PISAPISA 的三种不同层次的阅读的三种不同层次的阅读过程过程 ,, 没有区分阅读的目的和阅读材料没有区分阅读的目的和阅读材料的形式的形式 .).)

•应用写作应用写作 (( 使用书面的材料使用书面的材料 ,, 有效地有效地参与社会活动。在参与社会活动。在 PISAPISA 和和 PIRLSPIRLS 通常通常是结构式问题是结构式问题 )) 。。

PISAPISA 语文测查内容语文测查内容

Page 48: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

PISAPISA 数学(算术)测试内数学(算术)测试内容容

-- -- 整数和数的理解整数和数的理解 ,,-- -- 整数的四则运算整数的四则运算 ,,

-- -- 分数、小数、百分数分数、小数、百分数 ,,-- -- 空间关系和几何图形空间关系和几何图形 ,,

-- -- 简单的应用题简单的应用题(钱、重量、长度、距离等)(钱、重量、长度、距离等)

Page 49: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

多队列追踪评价模式的实施方法和技术

• 背景(1) 传统的研究方法 ( 非标准化考题 )

年年考试→合格率→筛选学生 不能回答如下问题:(a) 学校对学生的帮助有多大?(b) 学生学习的进步快慢?(c) 特别教育的干预效果和学生自己随年龄增长的进步水平各

有多少?

Page 50: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

多队列追踪评价模式的实施方法和技术

• 背景(2) 实验研究方法 实验学校与非实验学校学习成绩对比问题 1 :学生起点不一样使得终点成绩不能对比问题 2 :实验学生和非实验学生的家庭、社会背 景不同可影响结果问题 3 :非实验对照组的设定增加了研究成本

Page 51: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

多队列追踪评价模式的实施方法和技术

队列 1, 4 队列 2 队列 3

基线(2007) 3 年级 5 年级 7 年级 9 年级

中期(2009) 3 年级 5 年级 7 年级 9 年级

末期(2011) 3 年级 5 年级 7 年级 9 年级

Page 52: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

方法特点

(a) 四组学生追踪观察 2~3 次;(b) 同校同年级学生在项目期间暴露于项目的

时间不同,受干预的程度逐年增加;(c) 基线时的年级自然形成为中期和末期同年

级的对照组 ( 同校不同学生组 )

Page 53: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

希望回答的问题

(a) 项目干预对学生成绩有无综合影响? —3, 5, 7 和 9 年级在基线、中期和末期时

刻 的差别比较

Page 54: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

希望回答的问题

(b) 项目干预对哪个年龄段学生学习进步的影响更明显?

—学生队列 1, 2, 3 的进步量比较

Page 55: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

希望回答的问题

(c) 项目干预的影响在学校间或省县间有无差别?

Page 56: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

研究设计要解决的问题

(a) 同年级不同时间的试题是否测量同样的知识水平或能力?

—用相同考题 ( 记忆问题 )

—从同一题库中随机组题 ( 题库资源的建立 )

—统计方法获取标准化测量尺度

Page 57: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

研究设计要解决的问题

(b) 同校同年级不同学生家庭个人背景不同影响结果可比性

—统计方法校正 —学生按家庭背景配对 ( 损失人数 )

Page 58: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

研究设计要解决的问题

(c) 省、县、校间文化经济背景不同会影响项目干预的结果

—结合学校调查信息,用统计方法调整或

控制背景因素的不同 —各省、县分层分析 ( 样本信息变少 )

Page 59: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

研究设计要解决的问题

(d) 学生流动 ( 转出和退辍学 ) 使追踪学生流失

—???(e) 新转入学生缺少基线信息 —忽略

Page 60: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

研究设计要解决的问题

(f) 如何保障学生队列的三次考试成绩确属于同一学生 ( 学生转校,同名字同性别 )

—学生编号的统一

Page 61: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

应对的关键点

• 学生统一编码;以乡镇为单位保存信息

• 增设对比组;

• 建立学生成绩测验手册(三套标准化试题)

• 语文、数学不同年级测试题之间的衔接(锚题)

Page 62: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

学生学业成绩标准化测试要求各测验的时间安排每个学生每个科目的测验时间如下 :

  3 年级 5 年级 7 年级 9 年级数学 35分钟 40分钟 50分钟 60分钟语文 40分钟 60分钟 90分钟 90分钟

虽然这个时间安排比我国通常的考试时间短,但它是和国际上类似的测验的安排是一致的 (如 , TIMSS 和 PISA) 。在测验编制的时候,如果确实感到时间不够,那么可以考虑增加测验的时间。

Page 63: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

各省承担的出题情况

省份 云南 四川 贵州 广西

语文 3,7,9 3,5,7 3,5,9 5,7,9

数学 5,7,9 3,5,9 3,5,7 3,7,9

Page 64: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

出题标准• 出题标准:依据国家新课程标准

• 试题类型:仅限 3 种类型题目

多选题MCQ Items

封闭题Closed C-R Items

开放题Open C-R Items

题型参考

Page 65: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

各科目题量分配年级 3 5 7 9考试时间 ( 分钟 )

35’ 40’ 50’ 60’多选题 10 20 20 25封闭式题 10 7 10 10开放式题 0 3 5 5合计 20 30 35 40

数学考试时间长短及其题量

语文考试时间长短及其题量

年级 3 5 7 9考试时间 ( 分

钟 )40’ 60’ 90’ 90’

多选题 20 25 30 40封闭式题 10 10 20 25开放式题 0 5 10 15合计 30 40 60 80

Page 66: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

3 年级数学测验题目数量分布表 ( 多选 10 、封闭 10 、开放 0)

知识 认知 数与代数 空间与图形 概率与统计 实践与综合 合计

识记与理解        

运算         

推理与论证         

抽象与概括          

合计  7 5  2  6 20 题

5 年级数学测验题目数量分布表 ( 多选 20 、封闭 7 、开放 3)

知识 认知 数与代数 空间与图形 概率与统计 实践与综合 合计

识记与理解 34       

运算         

推理与论证       

抽象与概括   

     

合计  11  7 3  9 30 题

Page 67: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

7 年级数学测验题目数量分布表 ( 多选 20 、封闭 10 、开放 5)

知识 认知 数与代数 空间与图形 概率与统计 实践与综合 合计

识记与理解        

运算         

推理与论证         

抽象与概括          

合计  17 7  4  7 35

9 年级数学测验题目数量分布表 ( 多选 25 、封闭 10 、开放 5)

知识 认知 数与代数 空间与图形 概率与统计 实践与综合 合计

识记与理解        

运算         

推理与论证         

抽象与概括          

合计  12  12  8 8 40

Page 68: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

3 年级语文测验题目数量分布表 ( 多选 20 、封闭 10 、开放 )

正确读写字、词;正确运用拼音

理解字、词 (字同意不同,意同字不同等;运用字典 )

确定信息 (扫描、定位 ) ,解释

归纳、概括、

推论

判断、评价、鉴赏

简单的写作(正确写、用字、词标点符号可以包含在此)

小计

识字与写字 (40%)

20% 20%

阅读(60%)

20% 30% 10%

习作

小计 6 12 9 3 30 题

能力

知识

Page 69: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

5 年级语文测验题目数量分布表 ( 多选 25 、封闭 10 、开放 5)

正确读写字、词;正确运用拼音

理解字、词 (字同意不同,意同字不同等;运用字典 )

确定信息 (扫描、定位 ) ,解释

归纳、概括、

推论

判断、评价、鉴赏

简单的写作(正确写、用字、词标点符号可以包含在此)

小计

识字与写字 (30%)

10% 20%

阅读(30%)

10% 15% 5%

习作(40%)

40%

小计 4 12 6 2 16 40 题

知识

能力

Page 70: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

7 年级语文测验题目数量分布表 ( 多选 30 、封闭 20 、开放 10)

正确读写字、词;正确运用拼音

理解字、词 (字同意不同,意同字不同等;运用字典 )

确定信息 (扫描、定位 ) ,解释

归纳、概括、

推论

判断、评价、鉴赏

简单的写作(正确写、用字、词标点符号可以包含在此)

小计

识字与写字 (10%)

5% 5%

阅读(40%)

10% 20% 10%

习作(50%)

50%

小计 3 3 6 12 6 30 60 题

知识

能力

Page 71: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

9 年级语文测验题目数量分布表 ( 多选 40 、封闭 25 、开放 15)

正确读写字、词;正确运用拼音

理解字、词 (字同意不同,意同字不同等;运用字典 )

确定信息 (扫描、定位 ) ,解释

归纳、概括、

推论

判断、评价、鉴赏

简单的写作(正确写、用字、词标点符号可以包含在此)

小计

识字与写字 (10%)

5% 5%

阅读(40%)

10% 15% 15%

习作(50%)

50%

小计 4 4 8 12 12 40 80 题

知识

能力

Page 72: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 题型与题量

每个科目每个年级的测试都有明确的规定(如前述),这是正试测试卷的题量、分布和比例。但是,预测时,为了保证能够筛选到高质量的题目,每份卷子的题目量应为正式测试题的 150% 。

The number of mathematics items taken by one test-taker will be as follows:  

Gr. 3 Gr. 5 Gr. 7 Gr. 9MCQ Items 10 20 20 25Closed C-R Items 10 7 10 10Open C-R Items 0 3 5 5Total 20 30 35 40

  Gr. 3 Gr. 5 Gr. 7 Gr. 9

MCQ Items 15 30 30 38

Closed C-R Items 15 11 15 15

Open C-R Items 0 5 8 8

Total 30 46 43 61

The number of mathematics items in piloting

Page 73: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 题型与题量

The number of language items taken by one test-taker will be as follows:

  Gr. 3 Gr. 5 Gr. 7 Gr. 9

MCQ Items 20 25 30 40

Closed C-R Items 10 10 20 25

Open C-R Items 0 5 10 15

Total 30 40 60 80

  Gr. 3 Gr. 5 Gr. 7 Gr. 9

MCQ Items 30 38 45 60

Closed C-R Items 15 15 30 38

Open C-R Items 0 8 15 23

Total 45 61 90 121

The number of language items in piloting

Page 74: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 模块结构 (Block Structure )

测试的时间要远远超过所有学生所能正确完成的量才能了解学生的成就水平。为了增加测试材料的覆盖面,每科目应有三个测试模块,要求如下:

The quantity of testing time that is required to get a comprehensive picture of achievement far exceeds the length of test any individual can be expected to take. In order to increase the overall quantity of material that can be covered, there will be three blocks of test material in each subject, as follows: 每一个模块的量要到达到全部测试时间的一半。

Each block will be half the duration of a complete test.

每一模块应当包含若干测题,用于测评每一个规定的内容范畴,但没有必要按整个试题中按比例分布所有规定项目(也就是说一个模块包括着某一范畴中最有影响的测试项目,只要能代表着本范畴内其它的内容)

Each block should contain some items testing each of the content domains identified; but it does not need to include items from domains in proportion to their distribution in the test as a whole (i.e., a block may consist predominantly of items from one domain, so long as the others are represented).

三个模块应该等长(依照测试时间总量而定) The three blocks will be of equal length (in terms of the amount of testing time required).

Page 75: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 模块结构 (Block Structure ) 将会有三种不同的形式出现在测试册里,每一个学生的测试册都包括三个模块中的两个,安排如下:

There will be three different forms of the test booklet; each individual test booklet will contain two of the three blocks, as follows:

Form A Block 1 Block 2

Form B Block 2 Block 3

Form C Block 3 Block 1

Page 76: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 模块结构 (Block Structure )

学生拿到的测试册将会是轮换的(学生 1 拿第 A 册,学生 2 拿 B 册,学生 3 拿C 册,余类推),这样,每一个学生得到的都是三分之二的测试题。每一模块测试都会在开始和最后时各出现一次,使得顺序影响最小化(特别减少部分题由于时间压力而使导致学生马虎作答的风险),我们将用项目反应理论来评价学生的回答情况。 Booklets will be rotated (student 1 will get form A, student 2 form B, student 3 form

C, and so on). Therefore, each individual student will take two-thirds of the total number of items. Each block will occur once in initial, and once in final, position, to minimize order effects (especially the risk that some items will be answered by relatively few students due to pressure of time). Item Response Theory (IRT) will be used to estimate individual scores on a common scale.

尽管测试册不能覆盖课程的全部,但这种处理将会保证可以课程的覆盖面达 50% 左右。

Although it will not allow the entire curriculum to be covered, this will increase the proportion of the curriculum that can be covered by 50%.

Page 77: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 年级间的锚题 (Linking Items Between

Grades ) 为了便于评价年级之间学生学习成绩的变化(也就是在 3 年级作为开始,在 5 年级作为中期,在 5 年级作为开始在 7 年级作为中期等等),有必要在持续的两个年级之间设立锚题。这些锚题将在 2007 年低年级测试中出现(也就是说 5 年级的锚题在 2007 年在 3 年级的测试中出现,但在 2007 年 5 年级里不出现,余类推),然后在 2009 年高一年级中出现(也就是说 2007 年 3 年级的锚题将出现在 2009 年 5 年级的测试中,余类推)

In order to facilitate estimation of changes in performance from grade to grade (i.e., from grade 3 at inception to grade 5 at mid-term, from grade 5 at inception to grade 7 at mid-term, and so on), specific “linking items” between successive grades tested will be introduced. These items will be included in the tests at the lower grade in 2007 (i.e., linking items with grade 5 will be in the 2007 grade 3 test, but not the 2007 grade 5 test, and so on) and then in the upper grade in 2009 (i.e., linking items used in grade 3 in 2007 will be used in grade 5 in 2009, and so on).

Page 78: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 年级间的锚题 (Linking Items Between

Grades )恰当的锚题应该是: Appropriate linking items will be:

基于低年级的教学内容,而又与高年级的学习相关 based on content which is taught in the lower grade, and may still be relevant in the upper grade; and

对于低年级学生而言是困难的(也就是说低年级学生约有 20%-35%的学生能正确回答)

difficult for the students in the lower grade (i.e., should be answered correctly by 20%-35% of the lower grade students).

锚题的量 The number of such items required is as follows:

  Gr. 3 to Gr. 5 Gr. 5 to Gr. 7 Gr. 7 to Gr. 9

Items Required 6 8 12

注:每个 block里的锚题量也为其中的一半。如 3 年级与 5 年级的锚题在一个 block里有 3 题。这样,每册里包含的锚题数为 6个,余类推。

Page 79: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 预测 (Piloting of Items)

The purpose of piloting the items is to identify and eliminate flawed items. Flawed items need not be revised after piloting, unless specifically needed to make a balanced test.

测题试测的目的是确定和排除有缺陷测题,试测后有缺陷题没有必要修订,除非是为了平衡测试的特殊需要。

由于项目分析统计仅仅是粗略的引导性分析,而且其结果今后也不再使用,因此,试测的被试样本不要太大,但不应少于 100人。被试应从平行学校中选取,包括中上和中下的学校。

Because the item analysis statistics will only be a rough guide, and the resulting statistics will not be used later, the number of students required to take each pilot paper is not large. It should not however be less than 100. Test-takers should be drawn from a range of schools, including above- and below-average schools.

Page 80: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 项目分析 Item Analysis 在大多数情况下,测题的选择主要根据所评价的内容和认知范畴,项目分析有两个主要的目的:

In most cases, items will be chosen primarily on the basis of the content and cognitive domains they assess. Item analysis has two main purposes:

筛除特别困难或容易的测题(也就是正确率高于 75%或低于 25% )

To eliminate extremely difficult or easy items (i.e., above 75% correct or below 25% correct); and

确定项目结构中任何缺陷(如不牢靠的多选题错误,词干不明确,多种可能答案等等)

To identify any flaws in the construction of the item (e.g., weak MCQ distractors, ambiguous stems, multiple possible answers, etc.).

Page 81: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 项目分析 Item Analysis在这些局限中,如果要在两个测试同一特定内容的测题中做一选择的话,测题的难度是唯一要考查的,应选择中等难度的测题。“经典”的项目分析统计(容量度和区分度)是适宜的分析工具。

Within this limitation, the difficulty of the item will only matter if there is a choice to be made between two items covering specific content. In that case, the item closer to “medium” difficulty should be selected. “Classical” item analysis statistics (facility and discrimination) are therefore suitable analysis tools.

项目分析统计应包括容易度值( 75%> 容易值 >25% ) ,区分度 >0.25 ,可能的话,被试的选项错误也应进行分析(如错误分析)

The item analysis statistics should include the facility value (75%>FV>25%), and discrimination (D>.25). If possible, the options chosen by the test-takers should also be analysed (e.g., distractor analysis).

Page 82: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 结果形式

经过预测与分析之后,每个科目每个年级要提交以下成果:1. 反映测试内容的三个 block(一套题)2. 双向细目表 (样表 )

内容 知道与理解概念 运算技能 解决问题 合计数与计算 整数 (题号) (题号) (题号) 题数 (%)

  小数 (题号) (题号) (题号) 题数 (%)

  分数 (题号) (题号) (题号) 题数 (%)

几何初步知识

线 (题号) (题号) (题号) 题数 (%)

角 (题号) (题号) (题号) 题数 (%)

面 (题号) (题号) (题号) 题数 (%)

统计初步知识 (题号) (题号) (题号) 题数 (%)

量与计量 (题号) (题号) (题号) 题数 (%)

合计 题数 (%) 题数 (%) 题数 (%) 题数 (100%)

水平小学、初中分年级数学测验双向细目表 (样表 ) ( 红色部分视具体内容而定 )

Page 83: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 结果形式小学、初中分年级语文测验双向细目表 (样表 )

3 年级 5 年级 7 年级 9 年级 合计基础部分 % % % %

常用字 题数 题数 题数 题数 题数 (%)

汉语拼音 题数 题数 题数 题数 题数 (%)

理解常用词语和使用词典 题数 题数 题数 题数 题数 (%)

正确运用词 题数 题数 题数 题数 题数 (%)

阅读理解 % % % %  %

理解字面意义 题数 题数 题数 题数 题数 (%)

概括主要内容 题数 题数 题数 题数 题数 (%)

习作 % % % %  

应用文 题数 题数 题数 题数 题数 (%)

记叙文 题数 题数 题数 题数 题数 (%)

合计 题数 题数 题数 题数 题数 (100%)

年级内容

Page 84: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

测题编制的技术与要求• 结果形式

3. 题目分布表

在本组题目分布表中填入题目编号。如以下是小学数学 3 年级的题目分表,在数与代数的识记与理解交叉格里设计了 3 个测题,分别是模块 1 的第 12 、18 题和模块 3 的第 9 题。那么,就在表格里填上 B1-12,B1-18,B3-9 。余类推

水平 知识 数与代数 空间与图形 概率与统计 实践与综合 合计

识记与理解 B1-12,B1-18,B3-9       

运算         

推理与论证         

抽象与概括          

合计  7 5  2  6 20 题

Page 85: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

编题分组科目

年级 自治区专家 项目县专家 备注

语文

5 戴丽萍,小学语文,师院小教中心 凤山: 黄达昌、陈发展

7 蒋玉萍,中学语文,教院教研部 天等: 黄冠斌、黄国光

9 覃方确,中学语文,柳州市教科所 都安: 陆严天、潘英碧

数学

3 汤建芬,小学数学,师院小教中心 西林: 黄玉金、田景丰

7 邝国宁,中学数学,南宁市教科所 融水: 吴家示、贾传锋

9 姚丽行,中学数学,教院教研部 那坡: 李克金、莫福荣

Page 86: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

学生学业成绩测试日程计划• 国家项目办要求进度

出题、预试: 3月 25日之前完成预试报告并送到国家项目办。出题难易度和区分度按传统方式进行。预试要求每套题最少 100 学生,大约选两个班,两个班水平大致相同。

3月 27日开始, 4天时间集中合卷,每省 6 人,每套题 3 人 1 组。

印刷、校对、邮寄测试题:至少 1 个礼拜, 4月 15前测试卷送达各省。

正式测试时间: 4月 20~25日

Page 87: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录

学生学业成绩测试日程计划• 我区进度计划1. 编制测题 研讨会结束后,每个小组在组长的协调下组织组员编写试卷和评分标准,此

项工作在 2月 28 日前结束,各组长将试题交省项目办。 省项目办请产出 4有关专家对试题进行审核、修订,在新学期开学前将 6

份试题确定、印制 ( 每套 3个模块 (blocks) 。 印量: 6*120=720 份 ( 每个年级 Frame1 、 Frame2 、 Frame3 各 40

份 )2. 试卷预测 在新学期开学时,在区内非项目县选择与项目县普通学校相当的学校抽取学

生进行试测。预试要求每个年级每科目最少 100 学生,大约选两个班,两个班水平大致相同。

3. 预测评价 试题回收后,由出题的教研组出题员进行评分。 3月 15 日前将每名学生的

评分结果以及测试、修改意见报省项目办。 项目评估专家根据以上信息完成本省预测评估报告4. 3月 27日开始, 4天时间集中合卷,每省 6人,每套题 3人 1组。

5. 印刷、校对、邮寄测试题:至少 1 个礼拜, 4月 15前测试卷送达各省。 6. 正式测试时间: 4月 20~25日

Page 88: 中英西南基础教育项目(广西)学生学习进步测试试题编制

SBEP 学生学习进步测试试题编制会 2007.2 南宁

背景与内容 评价模式 方法技术 进度计划目录