Теории психологического тестирования

В настоящее время можно говорить о двух теориях тестирования. Одна – классическая, другая – современная, опирается на теорию измерений. Рассмотрим вкратце каждую из них.

Классическая теория погрешности измерений.Она полностью заимствована из физики. Считается, что тест такой же измерительный прибор, как вольтметр, термометр и т. д., и результаты, которые он показывает, зависят от величины свойства испытуемого, а также от самой процедуры измерения. Любое свойство личности имеет истинный показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и систематическая погрешность, но она сводится к прибавлению константы к истинной величине параметра, что для интервальной шкалы значения не имеет.

Если тест проводить много раз, то среднее будет характеристической истинной величиной параметра. Отсюда вводится понятие тестовой надежности: чем теснее коррелируют результаты начального и повторного проведения теста, тем он надежнее.

Так, определяемая надежность теста связана с однородностью, которая выражается в корреляциях между заданиями. Надежность возрастает с увеличением одномерности теста и числа его заданий, причем довольно быстро. Стандартная надежность 0,02 соответствует тесту длинной в 10 заданий, а при 30 заданиях она равна 0,007.

Для определения надежности методом расщепления используется формула Спирмена – Брауна.

В принципе классическая теория теста касается лишь проблемы надежности. Вся она базируется на том, что результаты выполнения разных заданий можно суммировать с учетом весовых коэффициентов. Так получается сырой балл.

По поводу того, откуда возникают ответы, в классической теории не говорится ни слова.

Несмотря на то, что проблеме валидности в классической теории теста уделяется много внимания, теоретически она никак не решается. Приоритет отдан надежности, что и выражено в правиле: валидность теста не может быть больше его надежности.

С теоретической точки зрения единственным способом установления внутренней валидности теста и отдельных заданий является метод факторного анализа. Он позволяет:

  • выделять латентные свойства и вычислять значение факторных нагрузок коэффициенты детерминации тех или иных поведенческих признаков;
  • определять меру влияния каждого латентного свойства на результаты тестирования.

Теория измерений (IRT).

Главное отличие теории измерений (IRT) от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т. е. тест заранее считается валидным. Вся процедура сводится к получению оценок параметров трудности задания и к измерению способностей испытуемых.

В классической теории теста индивидуальный балл считается некоторым постоянным значением. В IRT латентный параметр трактуется как непрерывная переменная. Кроме свойства и силы пункта в аналитическую модель IRT могут включаться и другие переменные.

Все варианты IRT классифицируются по числу используемых переменных. Наиболее известны однопараметрическая модель Раша, двухпараметрическая модель Бирнбаума и трехпараметрическая модель Бирнбаума.

В однопараметрической модели Раша предполагается, что ответ испытуемого обусловлен только индивидуальной величиной измеряемого свойства и силой тестового задания.

Единицей измерения способности является логит, которая позволяет измерить и силу пункта, и величину свойства. Рекомендуется рассматривать лишь интервалы -3 до+3 как для трудности, так и для способности.

Второй этап шкалирования испытуемых и заданий сводится к тому, что шкалы преобразуются в единую путем уничтожения влияния трудности задания на результат индивидов. И наоборот, элиминируется влияние индивидуальных способностей на решение заданий различной трудности. Эти эмпирические оценки используются в качестве окончательных характеристик измеряемого свойства и самого измерительного инструмента.

Если перед исследователем стоит задача конструирования теста, то он приступает к получению характеристических кривых заданий теста. Характеристические кривые могут накладываться одна на другую. В этом случае избыточное задание выбраковывается. На определенных участках оси способность характеристические кривые заданий могут вовсе отсутствовать. Тогда разработчик теста должен добавить задания недостающей трудности, чтобы равномерно заполнить ими весь интервал шкалы логитов от -6 до +6. Заданий средней трудности должно быть больше, чем на краях распределения, чтобы тест обладал необходимой дифференцирующей силой.

Вся процедура эмпирической проверки теста повторяется несколько раз, пока разработчик не останется доволен результатом работы. Естественно, чем больше заданий, различающихся по уровню трудности, предложил разработчик для первичного варианта теста, тем меньше итераций он будет проводить.

Главным недостатком модели Раша теоретики считают пренебрежение крутизной характеристических кривых: крутизна полагается их одинакова.

Задания с более крутыми характеристическими кривыми позволяют лучше различать испытуемых, чем задания с более пологими кривыми.

Параметр, определяющий крутизну характеристических кривых заданий, называют дифференцирующей силой задания. Он используется в двухпараметрической модели Бирнбаума. По ней крутизна кривой в точке перегиба изменяется от минус бесконечности до плюс бесконечности. Если значение крутизны близки к 0, то испытуемые, различающиеся по уровню выраженности свойства, равновероятно дают ключевой ответ на это задание теста. При выполнении такого задания у испытуемых не обнаруживается различий.

Парадоксальный вариант получаем при значении крутизны меньше нуля 0. В этом случае более способные испытуемые отвечают правильно с меньшей вероятностью, а менее способные с большей. Опытные психодиагносты знают, что такие случаи встречаются очень часто.

Все психологические тесты можно разделить в зависимости от формального типа ответов на открытые и закрытые. В тестах с открытым ответом, к которым относятся тест Векслера или методика дополнения предложений, испытуемый сам порождает ответ. Тесты с закрытыми заданиями содержат варианты ответов. Испытуемый может выбрать один или несколько вариантов из предлагаемого множества. В тестах способностей предусмотрено несколько вариантов неправильного решения и один правильный. Испытуемый может применить стратегию угадывания.

Результаты эмпирических исследований показали, что относительные частоты решения закрытых заданий отклоняется от теоретически предсказанных вероятностей двухпараметрической модели Бирнбаума. Чем ниже уровень способностей, тем чаще он прибегает к стратегии угадывания. Аналогично, чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не решить задачу.

Бирнбаум предложил трехпараметрическую модель, которая позволила бы учесть влияние угадывания на результат выполнения теста. Но модель Бирнбаума не объясняет парадоксального, но встречающегося в практике тестирования феномена: испытуемый может реже выбирать правильный ответ, чем неправильный. Таким образом, частота решения некоторых заданий может не соответствовать предсказаниям модели.

Главный же недостаток использования модели IRT – игнорирование проблемы валидности. В психологической практике не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним фактором. Даже для тестирования общего интеллекта модели IRT неприменимы. Рекомендуется их использовать для коротких тестов с валидными заданиями.

Интересный тест Зигмунда Фрейда


Похожие статьи.

Понравилась статья? Поделиться с друзьями: