Нормативно ориентированный тест егэ

Текст научной статьи
на тему «Единый государственный экзамен с позиций критериально-ориентированного и нормативно-ориентированного тестирования»

56

УДК 371.279

ЕДИНЫЙ ГОСУДАРСТВЕННЫЙ ЭКЗАМЕН С ПОЗИЦИЙ КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННОГО И НОРМАТИВНО-ОРИЕНТИРОВАННОГО ТЕСТИРОВАНИЯ

Пальмова Елена Андреевна, ассистент

Таганрогский государственный педагогический институт г. Таганрог, Россия palmovalena@mail. ru

Статья посвящена анализу критериально-ориентированного и нормативно-ориентированного видов тестирования. Показана невозможность совмещения в одном тесте целей упомянутых выше форм тестирования. С позиций критериально- и нормативно-ориентированного тестирования анализируется Единый государственный экзамен, совмещающий в себе признаки двух видов тестирования, из чего и вытекают недостатки экзамена, вызвавшие протест педагогической общественности.

Ключевые слова: ЕГЭ; тестовые задания; оценка результатов тестирования; критериально-ориентированный тест; нормативно-ориентированный тест; дифференцирующая способность заданий.

UNITED STATE EXAMINATION FROM THE POSITION OF CRITERIA-REFERENCED AND NORM-REFERENCED TESTING

Elena Palmova, a junior member of the teaching staff

Taganrog Teacher’s Training College, Taganrog, Russia palmovalena@mail. ru

The article is focused upon the analysis of criterion-referenced and norm-referenced forms of testing. It is shown that it is impossible to combine the aims of these two forms of testing in one test. The United State examination is analyzed from the point of view of criterion- and norm-referenced testing. The examination combines features both of these two forms and it leads to the main drawbacks of the exam which caused the protest on the part ofpedagogic community.

Keywords: United State examination; test items; test assessment and evaluation; a criterion-referenced test; a norm-referenced test; item discrimination.

Тестирование как средство измерения и контроля знаний учащихся становится сегодня основой обучающего процесса в отечественной школе. Связано это с поэтапным введением Единого государственного экзамена, ставшим с 2009 года единственной формой аттестации выпускников общеобразовательных учреждений.

Практически с самого начала эксперимента по введению Единого экзамена российское общество разделилось на два лагеря — сторонников и противников новой формы аттестации выпускников школ. Противники Единого экзамена указывали на множество его недостатков, начиная от его нелегитимности и заканчивая его неспособностью выступать в качестве объективного измерителя уровня знаний выпускников и способа отбора абитуриентов в вузы страны. Оппоненты экзамена очень детально описывали его недостатки и предлагали способы их устранения, однако причины слабых черт Единого экзамена анализировались крайне редко. Для определения таких причин представляется важным выявление того типа педагогического теста, каким является Единый экзамен, и анализ экзамена с позиций определенного типа теста.

Самым главным принципом классификации педагогических тестов, с точки зрения современной тестологии, является деление педагогических тестов на критериально-ориентированные (criteria-referenced testing) и нормативно-ориентированные (norm-referenced testing), поскольку за ними стоят разные измерительные процедуры при оценивании уровня знаний.

Первый термин «критериально-ориентированный» был предложен Р. Глейзером для обозначения тех методик, в основе интерпретации выполнения которых выявляется не «относительный статус» обучаемого в зависимости от уровня продемонстрированных достижений в рамках некоторой группы, а его «абсолютный статус», под которым подразумевается показатель успешности обучения, свидетельствующий о том, какая часть программы освоена в ходе учебного процесса [9, с.519].

В критериях отражаются обобщенные цели обучения. Критерии определяются в результате структурно-операционального анализа деятельности, во время осуществления которого не только предметный материал, подлежащий усвоению, но и функциональное содержание поведения обучаемых подвергается расчленению на составляющие [8, с.37].

В формулировках критериев можно выделить две части: содержательно-операциональную и соотносительно-предметную. Содержательно-операциональная часть определяет «особенности действий испытуемых со стимульным материалом и характеризуется жестким отбором лексических средств, необходимым для диагностического выявления степени успешности обучения.

Соотносительно-предметная часть критериев в процессе анализа целей обучения приобретает детализированный характер и одновременно обобщается в пределах всех содержательно однородных, относительно

независимых друг от друга и четко ограниченных фрагментов изученного курса» [2, с.108].

Разработанные подобным образом критерии достижения учебной цели, содержащие в себе детальное описание операциональной стороны действия и ее конкретизацию на области содержания контролируемого материала, служат опорами при создании критериально-ориентированных тестов.

Правильно разработанные критерии выступают для учащихся ориентиром, позволяющим им успешно справиться с тестовым заданием. Любые критерии оценки, с помощью которых учащиеся не могут эффективно подготовиться к тесту, оценить самих себя и осуществить работу по улучшению достигнутых результатов, нельзя считать удовлетворительными [5, с.11].

Задания критериально-ориентированного теста должны с возможной полнотой охватывать всю область содержания образования. Они основываются на той учебной программе и том учебном материале, которые использовались в ходе учебного процесса. Учащиеся обычно знают или предполагают, степень усвоения каких именно знаний проверяют задания теста [7, с.5-7].

Все задания критериально-ориентированного теста одинаково значимы, их дифференцирующая способность не учитывается. Количество заданий в тесте не лимитируется. Этот метод тестирования допускает формирование для каждого испытуемого индивидуального набора тестовых заданий из их генеральной совокупности.

В.Ю. Переверзев в рамках критериально-ориентированных тестов выделяет два их вида, не получивших свое обозначение в отечественной литературе: domain-referenced и mastery tests. Первый вид предназначен для выявления степени полноты знаний, выражаемой долей знаний к общему объему учебного материала, представленного в тесте. Второй подвид тестов оценивает квалификационные способности, по результатам этих тестов испытуемые делятся на две группы — подтвердившие и не подтвердившие квалификацию [Цит. по:4, с.248].

Нормативно-ориентированный тест — это «тип тестов, предназначенных для определения сравнительного уровня подготовки (обученно-сти) испытуемых между собой или относительно предварительно полученных тестовых норм» [1, с.82]. На основании персонального результата тестируемого определяется его рейтинг в общей группе испытуемых.

В ходе разработки тестов, ориентированных на статистические нормы, составителям необходимо проводить тщательный эмпирический анализ на определение способности заданий дифференцировать тестируемых на «слабых» и «сильных». Задания, с которыми справляются все тестируемые или, наоборот, не справляется никто, в нормативно-

ориентированные тесты не включаются, поскольку они не обладают дифференцирующей способностью.

Задания нормативно-ориентированного теста отличаются широтой охвата материала и не привязаны к конкретной программе, учебнику или курсу обучения. Они проверяют общий уровень знаний испытуемых по определенной дисциплине. Содержание заданий нормативно-ориентированного теста предугадать невозможно [7, с.5-7].

При нормативно-ориентированном тестировании разрабатываются специальные шкалы измерений: 2-шкала и шкала логитов. При критериально-ориентированном тестировании обычно используется шкала процентов, которая является прямым отражением шкалы «сырых баллов» [4, с.249].

В основе интерпретации выполнения заданий нормативно-ориентированного теста лежит гипотеза о размещении всех результатов группы испытуемых на кривой Гауса, что известно как «нормальное распределение». При таком распределении показателей в левой части графика сосредоточены результаты части неуспевающих тестируемых, в крайней правой части графика представлены результаты наиболее хорошо успевающих, а на всем протяжении середины графика расположены результаты основного количества обучаемых с удовлетворительной успеваемостью [2, с.106].

Баллы тестируемых по критериально-ориентированому тесту не обязательно будут поддаваться нормальному распределению. Если все или большая часть тестируемых знает весь материал, знание которого проверяется тестом, им всем должно быть присвоено одинаковое количество баллов.

Нормативно-ориентированный вид теста не допускает содержательной вариативности, то есть все испытуемые должны выполнять одни и те же задания, поскольку только соблюдение этого условия дает право сравнивать между собой результаты участников. Однако такие тесты должны меняться год от года как по соображениям безопасности, так и в связи с возможным изменением требований к поступающим в вузы [3, с.243].

Преимущества от использования критериально-ориентированного тестирования для практических нужд школы очевидны. Поскольку критериально-ориентированный тест дает возможность анализа степени усвоения элементов учебного материала, то этот вид тестов, в отличие от нормативно-ориентированного, обладает широкими диагностическими возможностями, позволяя выявить возможное отставание учащегося по предмету и ликвидировать такие пробелы. В каждодневном учебном процессе значимым является не количество баллов, на которое учащиеся опережают одноклассников или отстают от них, а то, что из пройденного материала требует дополнительного изучения, что необходимо повторить, а

что можно считать усвоенным [2, с.107]. Все это нормативно-ориентированное тестирование обеспечить не может.

Принадлежность теста к классу нормативно-ориентированных или критериально-ориентированных является его существенной характеристикой, определяющей способы построения тестов и обработки его результатов. Вопрос о принадлежности контрольно-измерительных материалов Единого государственного экзамена к классу критериально-ориентированных или норма

Для дальнейшего прочтения статьи необходимо приобрести полный текст. Статьи высылаются в формате PDF на указанную при оплате почту. Время доставки составляет менее 10 минут. Стоимость одной статьи — 150 рублей.

Сравнительный анализ нормативно- и критериально-ориентированных тестов.

НОПТ

КОПТ

Цель
тестирования

Сравнение уровня
достижений испытуемых друг с другом

Оценка
уровня достижений в соответствии со
степенью освоения знаний и умений
определенной области содержания

Критерий оценки

Стандартизированные
нормы

Достаточная
доля (%) проверяемого материала

Область
содержания

Задания
на проверку наиболее значимых элементов
содержания

Для
более полного охвата содержания
составляется детальная спецификация
теста (план), отражающая все элементы
содержания

Сфера
применения

Конкурсные отборы

(вступительные
экзамены в вузы)

Оценка
итогового уровня обученности (начальное,
среднее, высшее образование); оценка
эффективности программы обучения

Характеристи-ка
тестовых заданий

Задания
должны быть среднего
уровня трудности

(от 0,3 до 0,7) и высокой дифференцирующей
способностью (больше 0,3)

Задания
должны соответствовать спецификации
и элементам проверяемого содержания.
Задания могут быть различного
уровня трудности
.



Графики

В
современной тестологии можно заметить
тенденцию объединения нормативно- и
критериально-ориентированных подходов
.

По
мнению М.Б.Челышковой, «интерпретация
результатов теста по отношению к
определенному содержанию учебной
дисциплины вовсе не снимает возможности
дифференциации индивидуальных различий
учеников».

Идея
создания таких тестов очень интересна,
т.к. информативность теста в
результате объединения 2-х подходов
намного повышается
, тем более появилась
и практическая необходимость. Так
по результатам ЕГЭ выпускник получает
аттестат о среднем образовании, т.е.
определяется уровень владения знаниями
и умениями учащимся по разным дисциплинам
(критериально-ориентированный подход),
по этим же результатам он проходит
конкурсный отбор в высшие учебные
заведения (нормативно-ориентированнй
подход).

Существенные
различия норматавно- и
критериально-ориентированных тестов
ставят перед разработчиками тестов
сложные задачи, но они не являются
непреодолимыми.

Если
объединить цели тестирования и основные
подходы к созданию тестов,

то можем получить следующую классификацию
видов тестов
:

3.
По формам предъявления
пед.
тесты делятся на

1)
бланочные
,
в которых испытуемые
отмечают или вписывают правильные
ответы на бланке
;

    1. компьютерные
      задания
      высвечиваются на мониторе компьютера
      .

Преимущества
компьютерного тестирования в быстроте
обработки и экономии бумаги.

Недостатки:
компьютерное тестирование может
провоцировать случайные ошибки (если
испытуемый плохо владеет компьютером),
невозможность исправить допущенную
ошибку может снизить результат.

4.
По степени однородности задач
пед.
тесты бывают:

  1. гомогенные,
    которые
    предназначены
    для контроля знаний и умений по одному
    предмету или дисциплине;

  2. гетерогенные,
    предназначенный
    для измерения уровня подготовленности
    по нескольким
    учебным предметам.

В
свою очередь гетерогенные
тесты подразделяются на 2
вида
:

1.полидисциплинарный
и

2.междисциплинарный.

1.
Полидисциплинарные тесты

предназначены для проверки знаний по
нескольким дисциплинам и при этом
основной тест включают субтесты (н-р,
система заданий по математике и физике).
Эти субтесты могут рассматриваться как
отдельные тесты по разным дисциплинам.
Основная сложность в применении таких
тестов заключается в системе подсчета
баллов по результатам частей теста.

СУБтест – ПОДтест
(подчиненный тест).

2.
Междисциплинарные тесты

включают задания, которые направлены
на проверку обобщенных,
интегративных знаний

и умений в смежных
дисциплинах (математика-физика,
химия-биология, история-культурология).
Такие тесты достаточно сложны в
конструировании и при статистической
обработке методов многомерного
шкалирования.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Нормативно-ориентированные тесты разрабатываются для сравнения обучаемых по уровню учебных достижений, поэтому основная цель нормативно-ориентированного подхода – дифференциация испытуемых по результатам выполнения теста. При интерпретации результатов студентов относительная позиция испытуемого может оцениваться по-разному, поскольку он будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания студента, выполнившего правильно всего 30 заданий в тесте из 60 в том случае, если 70–80% остальных студентов в группе сделали меньшее число заданий. Тот же самый результат обучаемого в сильной группе будет отнесен к категории довольно низких, если только 10–20% испытуемых сделали правильно 30 заданий, а все остальные значительно превысили этот результат. Для корректной интерпретации результатов тестирования балл каждого студента сравнивается с нормами выполнения теста.

Нормы – это совокупность показателей, отражающая результаты выполнения теста четко определенной выборкой испытуемых – релевантной нормативной группой, репрезентативно представляющей генеральную совокупность тестируемых студентов. Нормы нельзя придумать или задать априорно, они устанавливаются в соответствии с эмпирическими данными по тесту. К ним обычно относят среднее значение тестовых баллов и показатель разброса (вариативности) вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых студентов. Имея нормы, можно установить положение каждого результата по отношению к среднему значению тестовых баллов, посмотреть, на сколько результат испытуемого выше или ниже среднего и как располагаются результаты остальных студентов вокруг среднего балла по тесту. Таким образом, соотнесение первичного результата испытуемого с нормами теста позволяет определить его место в выборке, использованной для подсчета.

Процесс определения норм называется стандартизацией теста. Этот процесс всегда осуществляется на репрезентативной выборке испытуемых, формирование которой обязательно при определении норм теста. Тестовых норм, пригодных для интерпретации результатов всех студентов по любым тестам, не существует вообще. Область применимости любой нормы ограничивается данным тестом и конкретной совокупностью испытуемых, поэтому нормы не абсолютны и не постоянны. Они отражают результаты выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.

Нормы обычно устанавливают в ситуации массового тестирования, например, при аттестации студентов или выпускников. В текущем контроле нормы выполнения теста, конечно, не определяются. В этом случае обычно используют не преобразованные (сырые) результаты выполнения тестов, подсчитанные путем суммирования оценок по отдельным заданиям, в том числе и с весовыми коэффициентами.

Руководству факультета нередко интересно узнать, по какому предмету отстает тот или иной студент. Для этого приходится сравнивать результаты студентов по предметным тестам. Подобное сравнение относительных позиций студента в тестах по разным предметам возможно в том случае, если они стандартизованы на одной и той же выборке испытуемых и представлены в одинаковых шкалах с общими средним значением и стандартным отклонением. В противном случае результаты сравнения тестовых баллов студента по отдельным предметам можно неверно интерпретировать из-за несопоставимости тестовых норм.

В педагогических измерениях термин «стандартизация» обычно используется гораздо чаще не только применительно к процессу установления норм выполнения теста. В расширенном понимании стандартизация предполагает единообразие всей процедуры выполнения теста. Для стандартизации, помимо норм, разработчик должен дать точные указания по форме предъявления теста, оптимальному времени его выполнения, составу выборки стандартизации, устные инструкции и ряд других деталей, влияющих на результаты выполнения теста.

К нормам предъявляют ряд требований:

  • нормы должны быть дифференцированными. Например, тесты для аттестации студентов вузов, реализующих одинаковые направления подготовки, необходимо стандартизировать на собственных выборках в тех случаях, когда результаты аттестации используются только внутри самого вуза. В случае, если речь идет об аттестации студентов при комплексной проверке деятельности учебных заведений, стандартизация тестов должна проводиться на репрезентативной выборке, состоящей из студентов разных вузов России и отражающей пропорции генеральной совокупности всех студентов, получающих подготовку по данному направлению;
  • нормы должны отражать реальный контингент и актуальные требования к качеству учебных достижений, вытекающие из современной ситуации в образовании;
  • нормы должны быть репрезентативными, поэтому они всегда устанавливаются эмпирически в соответствии с результатами тестирования выборки стандартизации, обеспечивающей несмещенные оценки.

Норма – относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой стандартной погрешности, чтобы ею можно было пренебречь в процессе стандартизации теста. Таким образом, при формировании выборки стандартизации необходимо учитывать две переменные: объем и представительность (репрезентативность), обеспечивающие в совокупности высокую точность при оценивании норм выполнения теста. Если выборка не репрезентативна, то нормы неадекватно отражают характеристики подготовленности генеральной совокупности испытуемых. В этом случае результаты тестирования выборочной совокупности студентов не подлежат генерализации (распространению на всю генеральную совокупность), а сами нормы являются недостоверными (неточными), поэтому их нельзя использовать при интерпретации результатов выполнения тестов.

Если принимать во внимание только первую переменную – объем выборки, то для получения приемлемой точности оценивания норм вполне достаточно провести тестирование 200–500 испытуемых. Гораздо более важной характеристикой выборки, не зависящей от ее размера, является репрезентативность (представительность). В практической работе вполне допустимо ограничиться выборкой из 300, а иногда даже 200 испытуемых, поскольку маленькая, но репрезентативная нормативная выборка предпочтительнее, чем большая, но неравномерно представленная.

Для обеспечения равномерности представления различных специфических составляющих популяции испытуемых используют специальный процесс – стратификацию (расслоение выборки на страты, размеры которых должны быть пропорциональны размерам соответствующих популяций в генеральной совокупности). Обычно в качестве оснований для стратификации выделяют факторы, наиболее тесно связанные с переменной измерения и воспроизводящие реальную структуру генеральной совокупности по ряду признаков (возрастных, гендерных, психологических, социальных и др.). Например, к числу таких факторов для группы вузов можно отнести программу обучения, используемые учебники, специфику технологий обучения, социальное положение родителей студентов, регион, где расположен вуз и т.д. Внутри одного учебного заведения можно выделить формы обучения, методы обучения, кадровый состав преподавателей и т.д.

Для формирования выборки определенного типа чаще всего используют вероятностные методы, отличающиеся от других, невероятностных методов способами извлечения объектов из генеральной совокупности и дающие по сравнению с последними более высокий уровень репрезентативности выборочных совокупностей [21]. Среди распространенных типов выборок можно выделить простую случайную, элементы которой отбираются из генеральной совокупности случайно, т.е. с равной вероятностью без выделения оснований по стратификации. В том случае, когда фиксируется определенный шаг выборки при отборе ее элементов, случайная выборка превращается в систематическую.

Стратифицированный тип выборки является наиболее предпочтительным с точки зрения обеспечения ее высокой репрезентативности. При ее формировании каждый элемент генеральной совокупности, включенный в одну внутреннегомогенную страту, отбирается методом простой случайной выборки, а процесс стратификации производится способом, описанным выше. Реже встречаются кластерные и мультистадийные выборки, требующие предварительного формирования кластерных групп элементов в тех случаях, когда генеральная совокупность неоднородна.

Определение оптимального типа выборки производится на основе анализа ряда факторов, к числу которых относятся цель измерения, вид измерителя и его содержание, особенности генеральной совокупности, специфика переменных измерения, планируемая надежность результатов, предполагаемые выводы по результатам педагогических измерений.

В целом можно сформулировать общие правила получения репрезентативной выборки стандартизации:

  • выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, обычно отражающим не более четырех уровней стратификации;
  • в каждой подгруппе необходимо выровнять число испытуемых, установив в качестве минимального числа не менее 100 испытуемых в одной подгруппе.

С учетом всех возможных сочетаний факторов, обычно выбираемых при массовом тестировании для стратификации, минимальный объем национальной выборки стандартизации во многих странах достигает 12–15 тыс. обучаемых. Для уменьшения этого объема минимизируют число оснований при делении на подгруппы – количество страт, – снижая тем самым затраты на стандартизацию национальных тестов.

Наличие многих факторов стратификации, необходимость анализа пропорций генеральной совокупности испытуемых, проведение апробационного тестирования для определения норм делают работу по стандартизации тестов достаточно дорогостоящей и трудоемкой. Современный уровень развития тестовых технологий позволяет моделировать тесты с прогнозируемыми нормами с помощью теории IRT, банка калиброванных тестовых заданий и специальных программ для компьютерной генерации вариантов теста. Поэтому в настоящее время некоторые зарубежные тестовые службы (например, ETS), обеспечивающие массовое тестирование в стране, занимаются созданием банков заданий с устойчивыми характеристиками для различных уровней образования. Чтобы получить такой банк, вузу необходима апробация тестов на репрезентативных выборках, поэтому проблема создания выборок стандартизации не снимается, а, наоборот, приобретает особенное значение.

К стандартизованному тесту необходимо приложить:

  • нормы выполнения теста, которые определяются на выборке стандартизации;
  • объем выборки стандартизации, основания для ее стратификации и временной период ее использования;
  • необработанные показатели выполнения теста для каждой выборки стандартизации.

Последняя информация необходима, поскольку необработанные результаты выполнения тестов могут поддаваться адекватной интерпретации лишь при сравнении с показателями выборки стандартизации. Пользователям тестов следует также помнить о том, что сопоставление норм по различным тестам возможно лишь тогда, когда есть основания для утверждения об адекватности выборок стандартизации.

НОРМАТИВНО-ОРИЕНТИРОВАННЫЙ ТЕСТ

НОРМАТИВНО-ОРИЕНТИРОВАННЫЙ ТЕСТ

НОРМАТИВНО-ОРИЕНТИРОВАННЫЙ ТЕСТ (англ. norm-referenced test).

Вид педагогического теста, с помощью которого сравниваются учебные достижения отдельных испытуемых. Результаты тестирования выражаются в тестовых баллах, которые фиксируются на специальных, составленных разработчиками шкалах. Н.-о. т. используются для того, чтобы получить надежные показатели в (баллах) для сравнения тестируемых. Самый простой способ проведения анализа тестового балла при таком тестировании состоит в том, чтобы сообщить, сколько процентов учащихся из учебной группы, в которой проводилось тестирование, выполнили тест хуже (получили более низкий балл) и сколько процентов выполнили тест лучше (получили более высокий балл). Специфика названного теста связана с основной задачей – дифференцировать испытуемых. Тест считается весьма полезным, когда необходимо получить информацию об испытуемом, связанную с его способностями или степенью обученности в сравнении с другими испытуемыми. Этот тест широко используется при распределении учащихся по учебным группам с учетом уровня языковой подготовки и способностей учащихся.

Новый словарь методических терминов и понятий (теория и практика обучения языкам). — М.: Издательство ИКАР.
.
2009.

Смотреть что такое «НОРМАТИВНО-ОРИЕНТИРОВАННЫЙ ТЕСТ» в других словарях:

  • ТЕСТ НОРМАТИВНО-ОРИЕНТИРОВАННЫЙ — ТЕСТ НОРМАТИВНО ОРИЕНТИРОВАННЫЙ. См. нормативно ориентированный тест …   Новый словарь методических терминов и понятий (теория и практика обучения языкам)

  • Контроль в обучении — абитуриент тест, айзенка тест, анализ ошибок, анализ речи компьютером, анализ урока, анкета, анкетирование, баллы оценочные, валидность теста, векслера тест, гиперкоррекция, грамматико морфологические ошибки, грамматико синтаксические ошибки,… …   Новый словарь методических терминов и понятий (теория и практика обучения языкам)

Нормативно-ориентированные тесты разрабатываются для сравнения обучаемых по уровню учебных достижений, поэтому основная цель нормативно-ориентированного подхода – дифференциация испытуемых по результатам выполнения теста. При интерпретации результатов студентов относительная позиция испытуемого может оцениваться по-разному, поскольку он будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания студента, выполнившего правильно всего 30 заданий в тесте из 60 в том случае, если 70–80% остальных студентов в группе сделали меньшее число заданий. Тот же самый результат обучаемого в сильной группе будет отнесен к категории довольно низких, если только 10–20% испытуемых сделали правильно 30 заданий, а все остальные значительно превысили этот результат. Для корректной интерпретации результатов тестирования балл каждого студента сравнивается с нормами выполнения теста.

Нормы – это совокупность показателей, отражающая результаты выполнения теста четко определенной выборкой испытуемых – релевантной нормативной группой, репрезентативно представляющей генеральную совокупность тестируемых студентов [1, 21, 28]. Нормы нельзя придумать или задать априорно, они устанавливаются в соответствии с эмпирическими данными по тесту. К ним обычно относят среднее значение тестовых баллов и показатель разброса (вариативности) вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых студентов. Имея нормы, можно установить положение каждого результата по отношению к среднему значению тестовых баллов, посмотреть, на сколько результат испытуемого выше или ниже среднего и как располагаются результаты остальных студентов вокруг среднего балла по тесту. Таким образом, соотнесение первичного результата испытуемого с нормами теста позволяет определить его место в выборке, использованной для подсчета.

Процесс определения норм называется стандартизацией теста. Этот процесс всегда осуществляется на репрезентативной выборке испытуемых, формирование которой обязательно при определении норм теста. Тестовых норм, пригодных для интерпретации результатов всех студентов по любым тестам, не существует вообще. Область применимости любой нормы ограничивается данным тестом и конкретной совокупностью испытуемых, поэтому нормы не абсолютны и не постоянны. Они отражают результаты выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.

Нормы обычно устанавливают в ситуации массового тестирования, например, при аттестации студентов или выпускников. В текущем контроле нормы выполнения теста, конечно, не определяются. В этом случае обычно используют не преобразованные (сырые) результаты выполнения тестов, подсчитанные путем суммирования оценок по отдельным заданиям, в том числе и с весовыми коэффициентами.

Руководству факультета нередко интересно узнать, по какому предмету отстает тот или иной студент. Для этого приходится сравнивать результаты студентов по предметным тестам. Подобное сравнение относительных позиций студента в тестах по разным предметам возможно в том случае, если они стандартизованы на одной и той же выборке испытуемых и представлены в одинаковых шкалах с общими средним значением и стандартным отклонением. В противном случае результаты сравнения тестовых баллов студента по отдельным предметам можно неверно интерпретировать из-за несопоставимости тестовых норм.

В педагогических измерениях термин «стандартизация» обычно используется гораздо чаще не только применительно к процессу установления норм выполнения теста. В расширенном понимании стандартизация предполагает единообразие всей процедуры выполнения теста. Для стандартизации, помимо норм, разработчик должен дать точные указания по форме предъявления теста, оптимальному времени его выполнения, составу выборки стандартизации, устные инструкции и ряд других деталей, влияющих на результаты выполнения теста.

К нормам предъявляют ряд требований:

     • нормы должны быть дифференцированными. Например, тесты для аттестации студентов вузов, реализующих одинаковые направления подготовки, необходимо стандартизировать на собственных выборках в тех случаях, когда результаты аттестации используются только внутри самого вуза. В случае, если речь идет об аттестации студентов при комплексной проверке деятельности учебных заведений, стандартизация тестов должна проводиться на репрезентативной выборке, состоящей из студентов разных вузов России и отражающей пропорции генеральной совокупности всех студентов, получающих подготовку по данному направлению;

     • нормы должны отражать реальный контингент и актуальные требования к качеству учебных достижений, вытекающие из современной ситуации в образовании;

     • нормы должны быть репрезентативными, поэтому они всегда устанавливаются эмпирически в соответствии с результатами тестирования выборки стандартизации, обеспечивающей несмещенные оценки.

Норма – относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой стандартной погрешности, чтобы ею можно было пренебречь в процессе стандартизации теста. Таким образом, при формировании выборки стандартизации необходимо учитывать две переменные: объем и представительность (репрезентативность), обеспечивающие в совокупности высокую точность при оценивании норм выполнения теста. Если выборка не репрезентативна, то нормы неадекватно отражают характеристики подготовленности генеральной совокупности испытуемых. В этом случае результаты тестирования выборочной совокупности студентов не подлежат генерализации (распространению на всю генеральную совокупность), а сами нормы являются недостоверными (неточными), поэтому их нельзя использовать при интерпретации результатов выполнения тестов.

Если принимать во внимание только первую переменную – объем выборки, то для получения приемлемой точности оценивания норм вполне достаточно провести тестирование 200–500 испытуемых. Гораздо более важной характеристикой выборки, не зависящей от ее размера, является репрезентативность (представительность). В практической работе вполне допустимо ограничиться выборкой из 300, а иногда даже 200 испытуемых, поскольку маленькая, но репрезентативная нормативная выборка предпочтительнее, чем большая, но неравномерно представленная.

Для обеспечения равномерности представления различных специфических составляющих популяции испытуемых используют специальный процесс – стратификацию (расслоение выборки на страты, размеры которых должны быть пропорциональны размерам соответствующих популяций в генеральной совокупности). Обычно в качестве оснований для стратификации выделяют факторы, наиболее тесно связанные с переменной измерения и воспроизводящие реальную структуру генеральной совокупности по ряду признаков (возрастных, гендерных, психологических, социальных и др.). Например, к числу таких факторов для группы вузов можно отнести программу обучения, используемые учебники, специфику технологий обучения, социальное положение родителей студентов, регион, где расположен вуз и т.д. Внутри одного учебного заведения можно выделить формы обучения, методы обучения, кадровый состав преподавателей и т.д.

Для формирования выборки определенного типа чаще всего используют вероятностные методы, отличающиеся от других, невероятностных методов способами извлечения объектов из генеральной совокупности и дающие по сравнению с последними более высокий уровень репрезентативности выборочных совокупностей [21]. Среди распространенных типов выборок можно выделить простую случайную, элементы которой отбираются из генеральной совокупности случайно, т.е. с равной вероятностью без выделения оснований по стратификации. В том случае, когда фиксируется определенный шаг выборки при отборе ее элементов, случайная выборка превращается в систематическую.

Стратифицированный тип выборки является наиболее предпочтительным с точки зрения обеспечения ее высокой репрезентативности. При ее формировании каждый элемент генеральной совокупности, включенный в одну внутреннегомогенную страту, отбирается методом простой случайной выборки, а процесс стратификации производится способом, описанным выше. Реже встречаются кластерные и мультистадийные выборки, требующие предварительного формирования кластерных групп элементов в тех случаях, когда генеральная совокупность неоднородна.

Определение оптимального типа выборки производится на основе анализа ряда факторов, к числу которых относятся цель измерения, вид измерителя и его содержание, особенности генеральной совокупности, специфика переменных измерения, планируемая надежность результатов, предполагаемые выводы по результатам педагогических измерений.

В целом можно сформулировать общие правила получения репрезентативной выборки стандартизации:

     • выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, обычно отражающим не более четырех уровней стратификации;

     • в каждой подгруппе необходимо выровнять число испытуемых, установив в качестве минимального числа не менее 100 испытуемых в одной подгруппе.

С учетом всех возможных сочетаний факторов, обычно выбираемых при массовом тестировании для стратификации, минимальный объем национальной выборки стандартизации во многих странах достигает 12–15 тыс. обучаемых. Для уменьшения этого объема минимизируют число оснований при делении на подгруппы – количество страт, – снижая тем самым затраты на стандартизацию национальных тестов.

Наличие многих факторов стратификации, необходимость анализа пропорций генеральной совокупности испытуемых, проведение апробационного тестирования для определения норм делают работу по стандартизации тестов достаточно дорогостоящей и трудоемкой. Современный уровень развития тестовых технологий позволяет моделировать тесты с прогнозируемыми нормами с помощью теории IRT, банка калиброванных тестовых заданий и специальных программ для компьютерной генерации вариантов теста. Поэтому в настоящее время некоторые зарубежные тестовые службы (например, ETS), обеспечивающие массовое тестирование в стране, занимаются созданием банков заданий с устойчивыми характеристиками для различных уровней образования. Чтобы получить такой банк, вузу необходима апробация тестов на репрезентативных выборках, поэтому проблема создания выборок стандартизации не снимается, а, наоборот, приобретает особенное значение.

К стандартизованному тесту необходимо приложить:

     • нормы выполнения теста, которые определяются на выборке стандартизации;

     • объем выборки стандартизации, основания для ее стратификации и временной период ее использования;

     • необработанные показатели выполнения теста для каждой выборки стандартизации.

Последняя информация необходима, поскольку необработанные результаты выполнения тестов могут поддаваться адекватной интерпретации лишь при сравнении с показателями выборки стандартизации. Пользователям тестов следует также помнить о том, что сопоставление норм по различным тестам возможно лишь тогда, когда есть основания для утверждения об адекватности выборок стандартизации.

Понравилась статья? Поделить с друзьями:
  • Нормативная продолжительность рабочего времени не может превышать 40 часов в неделю егэ
  • Ночной пейзаж сочинение
  • Норманнский фактор в образовании европейских государств егэ
  • Ночная подготовка к экзамену
  • Нормандское завоевание англии егэ история