Критический пункт, который необходимо иметь в виду в этом случае, состоит в том, что, когда мы оцениваем уровень трудности заданий, мы пытаемся учитывать способности респондентов, и наоборот. Приблизительным и неформализованным способом мы пытаемся установить (разумеется, разобравшись в сути дела) -будет ли оценка способностей человека независимой от уровня трудности заданий теста, которые предъявлялись. Подобным образом мы пытаемся установить трудность каждого задания, принимая в расчет различия в способностях респондентов.

Принципиально важно помнить следующее положение: теория сложности заданий ставит целью измерять способности независимо от трудности конкретных заданий, которые предъявлялись. Она также стремится установить параметры задания — трудность/ дискриминацию/угадывание — способом, который совершенно не зависит от особенностей выборки индивидуумов, которым пришлось проходить тестирование. Это значительно контрастирует с классической теорией тестирования, в которой оценка человека рассматривается как показатель его способностей, и это полностью смешивается с различиями в трудности заданий теста. Один и тот же показатель может быть получен высокоспособным студентом, которому предъявлялись трудные задания теста, или студентом с низким уровнем способностей, которому предъявлялись легкие задания.

Выше я доказывал, что характеристическая кривая задания (ХКЗ) показывает вероятность выполнения определенного задания теста индивидуумами с различными уровнями способностей. По-видимому, можно написать компьютерную программу, которая проводила бы грубую прикидочную оценку способностей различных людей (возможно, на основе количества правильно выполненных заданий) и затем, зная эти способности, устанавливала бы уровни трудности каждого задания. Тот же процесс можно было бы в последующем повторить в обратном порядке, когда способности студентов устанавливаются на основе статистических данных о трудности заданий. Этот процесс можно было бы повторять раз за разом, добиваясь лучших оценок способностей и параметров задания на каждой стадии до тех пор, пока оценки способностей студентов и трудности заданий дальше уже нельзя будет улучшить. Другими словами, такая программа могла бы попытаться найти наиболее подходящие величины для всех параметров задания и способностей. Сваминатан ч Гилфорд (Swaminathan, Clifford, 1983) показали, что, когда количество заданий и испытуемых достаточно велико, оценки параметров, получаемых таким способом, весьма близки к их подлинным значениям в одно-и двухпараметрической моделях, но в трехпараметрической модели это весьма проблематично.

Представленная подобным образом, эта процедура выглядит довольно просто, хотя статистическое и численное установление этих параметров может быть чрезвычайно сложным процессом. Вам не следует слишком беспокоиться по поводу деталей. Для выполнения подобного анализа было написано несколько компьютерных программ. LOGIST (Wingersky et al.t 1982), RASCAL, RSP, XCalibre ASCAL (Assessment Systems Corporation, 1989) являются программами, которые пытаются установить эти личностные параметры и параметры заданий с помощью разнообразных методов. Важным моментом, который необходимо усвоить, является то, что эти программы могут одновременно оценивать и способности индивидуумов, и параметры различных заданий. Они также обеспечивают статистику, которая показывает, насколько близко определенная модель соответствует полученным данным, например, они позволяют определить, будет ли адекватной двухпараметри-ческая логистическая модель или необходимо также вычислить параметры угадывания для каждого задания.

Продемонстрировать, что эти программы действуют в значительной степени так же, как и анализ, основанный на нашем здравом смысле, можно, обратившись к табл. 16.2. Она представляет оценки способностей и трудности заданий, которые были получены при анализе данных, взятых из табл. 16.1, с использованием двухпараметрической логистической модели. ХКЗ, соответствующие данным табл. 16.2, представлены на рис. 16.6. Не принимайте эти результаты слишком серьезно — обычно считается необходимым основывать такой анализ на выборках из нескольких сотен человек и на тестах, включающих более пяти заданий.

Однако из табл. 16.2 действительно следует, что программы, по-видимому, дают результаты, которые в широком плане соответствуют нашим предшествующим ожиданиям. Вам следует самим убедиться, что результаты таблицы совпадают с нашим более ранним «визуальным» анализом данных.

Рис. 16.6. Характеристические кривые заданий, данных в табл. 16.2.

Таблица 16.2

Оценки трудности заданий и способностей по данным, представленным в табл. 16.1, базирующиеся на двухпараметрической логистической модели

Способности

Задание

Трудность

Дискриминация

Джеймс

0,424

1

-0,534

1,440

Шэрон

0,915

2

-0,531

1,004

Брайан

1,026

3

-0,956

1,609

Линда

-0,943

4

0,970

1,317

Майкл

-0,376

5

1,474

1,565

Сьюзен

-0,733

Уильям

-0,79

Фиона

0,264

Страницы: 1 2 3

Смотрите также

Планы с контрольными группами
Понятие об экспериментальных и контрольных группах, а также о различиях между ними было дано в главе 5. Экспериментальные группы подвергаются определенному воздействию, а контрольные — не подверга ...

Результаты: основной эффект и взаимодействие
Факторные исследования дают два вида результатов: основной эффект и взаимодействие. Основной эффект показывает общее влияние независимых переменных, а взаимодействие отражает совместное действие п ...

Квазиэкспериментальные планы
Строго говоря, «настоящие» экспериментальные исследования проводятся с использованием управляемых независимых переменных и либо эквивалентных групп в случае межсубъектных планов, либо позиционного ...