1.3.3. Надежность частей теста - Средства контроля диагностических качеств психологических

Лекция

Это продолжение увлекательной статьи про средства контроля диагностических качеств психологических тестов.

...

порядковому номеру. Понятно, что такое разделение заданий теста на части возможно в тестах, которые построены по принципу шкалы, то есть каждое следующее задание на какую-то более или менее постоянную величину должен быть тяжелее предыдущего. Тогда парные и непарные задачи будут относительно уравновешены. Кстати, вопрос субъективной тяжести наборов тестовых заданий является важным в деле конструирования, адаптации и проверки психодиагностических качеств психологических тестов (остановимся на этом вопросе подробнее в следующих главах). Надо также учитывать, что метод расщепления, как средство формирования псевдопаралельнои формы теста, абсолютно непригодным для традиционного использования опросников личности. Прежде всего это объясняется тем, что различные пункты опросника имеют такие показатели дискриминативности (см. Следующие разделы), не совпадают, но, если применить принцип обработки данных, основанные на подсчете индексов статистической значимости каждого ответа относительно конечного результата, то из общей совокупности вопросов можно подобрать наборы, будут уравновешенными по диагностическим и дискриминативнимы качествами.

К тому же заметим, что надежность частей заданий теста не совпадает с надежностью его частей. Приведем такую аналогию: в сложном механизме, где взаимодействует большое количество частей, вероятность выхода из строя выше, чем у простого устройства, где таких частей значительно меньше; так же и в психологическом тесте, состоящий из большого количества задач или других элементов, вероятность другого ответа при повторном использовании также значительно возрастает. К счастью, мы можем подсчитать, а также скорректировать показатели надежности перехода от целого набора к его частям с помощью специальных уравнений (см. Разд. 1.3.3).

Вернемся к вопросу характеристики надежности с помощью принципа применения параллельных форм. Первое, что нужно отметить, это высшее подлинность утверждение о надежности теста по сравнению с применением принципа ретестовой надежности. При использовании параллельной формы подопытным подается относительно новый набор задач. Таким образом, влияние тренировки и восстановления в памяти уже выполненных решений значительно (но не совсем) уменьшается. Существенным преимуществом метода параллельных форм является также возможность использования относительно малого интервала ретест.

Основным показателем надежности параллельных форм является коэффициент корреляции между результатами первичного и повторного обследования. В этом случае коэффициент отражает как степень стабильности результатов теста в течение определенного времени (собственно надежность), так и степень совпадения результатов двух форм теста. Если две формы используются непосредственно одна за другой коэффициент основном ориентирован на степень совместимости параллельных форм.

Самой сложной проблемой, возникающей при анализе надежности параллельных форм, является характер отношений между этими формами теста. Оба набора задач должны быть подобранными таким образом, чтобы, отвечая одним и тем же требованиям, будучи ориентированными на измерение идентичных показателей и подавая близкие результаты, они одновременно были бы относительно независимыми друг от друга. Это требование, по сути, является противоречием. Практическое достижение этого возможно далеко не для всех тестовых заданий. С этим связан главный недостаток принципа определения надежности методом параллельных форм. Количество тестов, имеют такие формы, ограничено. Другая недостаток метода - присутствие в коэффициенте надежности меры взаимосвязи между основной и параллельной формами. Через указаны причины анализ надежности методом параллельных форм приобрел в современной прикладной и теоретической психологической диагностике весьма ограниченное использование.

1.3.3. Надежность частей теста

Из рассмотрения принципов определения надежности психологического теста, изложенных в предыдущих главах, можно сделать вывод: применение метода надежности параллельных форм основном объясняется попыткой максимально ослабить влияние ретестовой закономерностей результатов анализа. На самом деле, использование другого по содержанию формулировки набора пунктов снижает роль фактора тренировки. Но такое снижение не является коренным. Как отмечалось, чрезвычайно сложным является задача подбора различных тестовых задач, которые одновременно измеряли бы одни и те же психологические показатели. И все же структура и суть задач, характер их построения в параллельных формах остаются одинаковыми, а меняются только формулировки, средства выражения одного и того же содержания. Поэтому материал параллельной формы при повторном исследовании не является совершенно новым для подопытного. Итак, мы снова не избегаем фактора тренировки.

Можно сделать вывод, что главным недостатком ретестовой надежности и надежности параллельных форм принципиальная необходимость проведения ретест в той или иной форме. Но есть такая необходимость действительно принципиальной? На первый взгляд повторное исследование следует из самой дефиниции надежности - как устойчивости результатов методики во времени. Но надежность можно рассматривать и как устойчивость результатов в одних частицах теста относительно других. В этом смысле надежность выступает как внутренняя относительная эквиваленция данных элементов совокупности тестовых заданий.

Такой подход в толковании надежности позволяет разработать совершенно другое направление квалификации меры устойчивости теста как измерительного инструмента и обойти главное ограничение, связанное с необходимостью ретест.

Квалификация надежности частей теста - характеристика надежности психодиагностической методики путем анализа устойчивости результатов частичных совокупностей тестовых задач или единичных пунктов теста. Самым простым и распространенным видом анализа надежности частей теста является метод расщепления, содержанием которого является выполнение испытуемым задач двух равноценных частей теста. Teoретичним обоснованием метода является предположение того, что в случае нормального или близкого к нему распределения оценок по тесту в целом выполнение любого случайного набора задач из частей теста дает аналогичное распределение (при условии, что части однородны по характеру задач, а также относительно исхода теста в общем).

Простейшим случаем является расщепление теста на две эквивалентные части (об этом уже говорилось в предыдущем разделе). В дополнение к распределению эквивалентных половин по четным и нечетными номерами, разделения пунктов по принципу близости или эквиваленции значений индексов тяжести и дискриминативности (см. Последующие разделы) возможно и разделение задач по времени, необходимый для их выполнения (такой способ используется в случае разделения на эквивалентные части тестов скорости).

Непосредственно процедура получения эмпирических оценок надежности выглядит проще, чем в предыдущих случаях определения коэффициентов ретестовой надежности и надежности параллельных форм. Испытуемые из выборки определения надежности проходят обследование единственный раз за полным набором заданий теста. После этого отдельно оцениваются ответы в еквивалетних частях теста. Эти результаты коррелируют между собой, полученный коэффициент корреляции и будет показателем r t, отражающее степень устойчивости результата в течение выполнения различных частей теста.

В предыдущем разделе уже подчеркивалось предостережение о неэквивалентность показателей надежности теста в целом и его частей.

Уравнение Спирмена-Брауна позволяет учесть влияние увеличение или уменьшение количества заданий теста на коэффициент

Средства контроля диагностических качеств психологических тестов

где r t - коэффициент надежности для полного набора задач; r 1 t - его значение изменения количества задач; n - отношение нового количества задачи к исходной (если количество задач полного теста 100, а его части, полученной методом расщепления на половины - 50, то n = 0,5).

Таким образом, для полного теста

Средства контроля диагностических качеств психологических тестов

Приведенные формулы имеют смысл для случаев одинаковых стандартных отклонений обеих половин теста (σ Хи = σ X2). Если σx1 отличается от σ X2, для определения коэффициента надежности используют формулу Фланагана:

Средства контроля диагностических качеств психологических тестов

Этот же показатель для малых выборок рассчитывают по формуле Кристофа:

Средства контроля диагностических качеств психологических тестов

При определении r t (полного объема теста можно воспользоваться формулой Рюлона:

Средства контроля диагностических качеств психологических тестов

где σ 2 д - дисперсия разницы между результатами каждого подопытного за половинами теста; σ 2 х - дисперсия суммарных результатов. В данном случае коэффициент надежности рассчитывается как часть истинной дисперсии результатов теста.

При расщеплении тестов скорости применяют специальную процедуру группировки задач. Определяют минимальный промежуток времени t m | n, необходимое для выполнения теста в целом. После этого отсчитывают половину и четверть этого времени. Все подопытные работают в течение половины минимального времени, после чего делают отметку против задача, выполнялось на момент контрольного времени, и продолжают работу еще в течение четверти минимального времени. Коэффициент надежности в этом случае будет равна показателю корреляции между количеством задач, решенных 0,5 t min и 0,25 t min.

Расщепление заданий теста на равноценные половины является лишь частным случаем анализа надежности частей теста. Действительно, возможно расщепление на три, четыре и более частей. В предельном случае количество таких частей равно количеству пунктов теста. Тогда анализ надежности, по сути, становится анализом внутренней согласованности.

При разделении структуры заданий теста на любое количество групп правильное определение надежности частей теста во многом зависеть от соблюдения условия равноценности таких групп. Об этом говорит сайт https://intellect.icu . Поэтому при определении коэффициента надежности методом анализа внутренней согласованности надо учитывать, что отобранные задачи должны быть гомогенными, то есть однородными по содержанию и тяжестью. При сравнении гетерогенных задач значение r t, конечно, ниже настоящего.

Самым распространенным средством оценки надежности отдельных задач является вычисление коэффициента Кьюдера-Ричардсона:

Средства контроля диагностических качеств психологических тестов

где σ 2 х - дисперсия первичных оценок теста; р - индекс тяжести, который определяется как доля U T / 100 (см. раздел «Тяжесть заданий теста»); q = lp; r pb - коэффициенты дискриминации (см. раздел 4).

С целью упрощения расчетов может быть использована формула Гуликсена:

Средства контроля диагностических качеств психологических тестов

где R - количество заданий в тесте.

Это уравнение может быть упрощено следующим образом:

Средства контроля диагностических качеств психологических тестов

При отсутствии коэффициента дискриминации допустимый для использования такой вариант формулы Кьюдера-Ричардсона:

Средства контроля диагностических качеств психологических тестов

Приведем пример расчета r t, по методу Кьюдера-Ричардсона (табл. 2).

Приведенные ривияння вычисления коэффициента надежности могут быть использованы в случаях, когда оценка градуированная дихотомической шкале (т.е. шкале, построенной по принципу «выполнено - не выполнено»). Для случаев с более дифференцированными оценками может быть использована формула «коэффициента альфа»:

Средства контроля диагностических качеств психологических тестов

где Σσ 2 Хi - сумма дисперсий результатов отдельных задач.

Таблица 2. Определение коэффициента надежности по методу Кьюдера-Ричардсона (n = 50; σ 2 х = 8,01, R = 16)

Средства контроля диагностических качеств психологических тестов

В практике психологической диагностики считается: тест достаточно надежен, если показатель r t, больше или равен 0,6.

Коэффициент надежности имеет определенный интервал доверия, определение которого особенно важно в связи с большим количеством факторов, которые могут влиять на его значение. Интервал доверия для r t, определяется как

Er t = Z (r) + Z крит σ rt

где σ rt - стандартная ошибка коэффициента надежности Средства контроля диагностических качеств психологических тестов

(Z r -Z) - преобразование Фишера (определяется с помощью статистических таблиц). На практике принимается во внимание только нижняя граница r t (Z крит при в = 0,05, а = 0,01 - 2,58).

Определение надежности методом разделения теста на части имеет весомые преимущества перед ретестовой надежностью и надежностью параллельных форм в основном за счет отсутствия необходимости в повторном исследовании. Это объясняет распространение метода в современной психологической диагностике. Однако метод имеет определенные недостатки. К ним можно отнести невозможность установить надежность результатов теста относительно промежутка времени. Это требует комбинирования определения надежности с помощью метода расщепления со средствами ретестовой надежности и надежности параллельных форм.

Завершая рассмотрение голорних средств определения надежности психодиагностического теста, еще раз подчеркнем исключительную важность указанных критериев в деле профессионального и научно обоснованного применения существующих психологических тестов. Исследователю, который интерпретирует эмпирические данные, следует иметь четкое представление о степени точности и возможные пределы реального результата, который достигается конкретной измерительной процедурой.

К сожалению, следует признать, что психологические тесты вообще отмечаются сравнительно невысокой надежностью. Необходимо помнить: в силу этого обстоятельства индивидуальный результат (то есть качественное или количественное утверждение о выраженности определенной психологической особенности у конкретного человека) будет всегда уступать статистическим выводам, основанным на исследовании выборки. Чем больше будет такая выборка, чем более однородным будет ее состав, тем надежнее будет психодиагностическая информация.

В завершение добавим: различные виды психодиагностических методик имеют относительно различные показатели надежности. Наибольшее значение коэффициентов надежности имеют объективные тесты. Значительно ниже эти показатели для опросников личности. Большой сложности приобретает определение количественных показателей надежности проективных техник, где мы не вычисляем, а судим о надежности в качественной форме, хотя принципы определения надежности проективных техник в целом такие же, как и любых других психодиагностических методов.

1.4. Определение надежности проективных тестов

Надежность проективных тестов, как правило, оказывается проблематичной. В основном это объясняется характерной для проективных тестов недостаточной стандартизацией показателей и их интерпретаций, частой отсутствием или неадекватностью нормативных данных. В основном многозначность толкования показателей проективных тестов значительно ограничивает использование средств количественного статистического анализа надежности.

Наряду с объективными тестами и опросниками личности надежность проективных тестов может определяться с использованием изложенных в предыдущих разделах принципов. Но в данном случае следует обращать внимание и на особо присущи проективным тестам процедуры определения надежности. Так, наряду с необходимостью установить традиционные качества и надежности методики как измерительной процедуры (общая и частичная дисперсии, погрешности измерения, устойчивость относительно ретест и др.) Необходимо еще и особая форма - интерпретационные надежность. По мнению А.Анастази (1982), интерпретацийиа надежность - это мера согласованности, с которой разными экспериментаторами определяются одни и те же свойства личности у конкретного испытуемого, основываясь на интерпретации идентичных протоколов. Исходя из этой дефиниции, могут существовать, как минимум, следующие уровни контроля интерпретативной надежности:

надежность подбора первичной информации для анализа (как правило, протоколируются далеко на все реакции подопытного, и из протокола - для дальнейшей интерпретации - также берется не все, на какие разделы протокола или блоки информации исследователь обращает больше (или меньше) внимания, то есть диагностическая информация суб объективно дискриминируемое каждым экспериментатором)
надежность идентификации показателей (должна быть достигнута максимально возможная однозначность толкования показателя в данных подопытного и его интерепретации в справочнике методики)
надежность (однозначность) сложного выводу, что опирается на совокупность отдельных показателей;
однозначность окончательного диагноза.

Определение этих критериев надежности может опираться на эмпирическую процедуру сопоставления выводов, которые делаются различными экспериментаторами в отношении одной выборки определения надежности. В случае большого расхождения в толкованиях отдельных показателей средством повышения объективности психодиагностической информации является совершенствование стандарта проведения теста. В случае невозможности однозначного толкования отдельных показателей они должны быть исключены из интерпретативной схемы.

Определение надежности как внутренней согласованности для проективных тестов достаточно проблематично. Даже для таких методик, как PP Study С.Розенцвейгом, теста Роршаха, TAT и некоторых других, имеющих разделение на отдельные задачи, коэффициенты согласованности обычно низкие. Это свидетельствует об ограниченной возможности сравнения отдельных задач проективного теста из-за того, что в отдельных испытуемых они могут актуализировать различные аспекты личности. Для тестов свободной изобразительной продукции ( «Рисунок семьи», «Нарисуй человека» Ф.Гудинаф, тест дерева К.Коха и др.) Использование модели анализа надежности как внутренней согласованности имеет еще меньшее значение. Единственным путем является сравнение результатов в различных вариантах инструкции (например, в случае теста дерева: рисунок обычного дерева, рисунок «сумасшедшего» дерева, рисунок «фантастического» деревья и т.д.). Следует отметить, что здесь существует противоречие с известным эффектом, в котором устанавливаются значительные изменения в показателях даже при несущественных изменениях в инструкции испытуемым. Очевидно, при изменении инструкции мы часто имеем новый тест, связь которого с предыдущим еще предстоит выяснить.

В то же время с традиционной для ретестовой надежности проблемой определения интервала ретест (при малом интервале - повторение предыдущего выполнения благодаря запоминанию, при большом интервале - возможно изменение характеристик в результате динамичного развития исследуемого конструкта) существует и дополнительная проблема - относительно малое количество идентичных показателей в первичном и последующем опытах. Это исключает применение простых средств коррелятивного анализа. К тому же повтор результатов при ретест вообще почти не свойственный для проективных техник. Когда при повторном тестировании экспериментаторы требовали изменить рассказы TAT для того, чтобы определить повторяются некоторые темы, была получена совсем незначительная корреляция между первичным и последующим исследованиями. Такая же закономерность наблюдалась при отсутствии специальной инструкции. Большинство испытуемых пытались составить новые рассказы, сделать рисунки и тому подобное. Возможно, это произошло потому, что в большинстве проективных тестов в объяснениях испытуемому говорилось: исследоваться характеристики воображения, фантазии. Подопытный, конечно, не хочет, чтобы его данные были хуже других из-за того, что в первоначальном и последующих тестированиях он подавал одинаковые ответы.

2. Валидность психологического теста

Переходя к рассмотрению вопросов, связанных с определением показателей валидности теста, прежде всего отметим, что эта категория психологического тестирования относится к малорозроблених комплекса знаний психологической диагностики: насчитывается лишь несколько фундаментальных разработок по этому вопросу.

Валидность (бид англ. Valid - действительный, имеющий силу, пригодный) - это комплексная характеристика методики (теста), что отражает информацию о круге изучаемых явлений, а также степень репрезентативности процедуры исследования по отношению к ним.

В упрощенном и обобщенном формулировке валидность теста - это «понятие, указывающее на то, что тест измеряет и насколько хорошо он это делает» (А.Анастази, 1982). В стандартных требованиях к педагогическим и психологическим тестам (Standarts ..., 1974) валидность определяется как совокупность сведений о том, в отношении каких групп психологических свойств личности могут выноситься квалификационные суждения, а также сведения о степени обоснованности последних на основе тестовых оценок или каких-то других средств оценивания. В современной психологической диагностике валидность рассматривается как обязательная и важная партитура информации о методике, содержащий сведения о степени согласованности данных теста с другими сведениями о обследуемую личность (теоретические надежду, обсервацию, экспертные оценки, данные других методик, психологическое значение которых установленным, и др. В совокупность сведений о валидности также входит суждения о достаточности обоснованности предвидения развития психологической качества, черты или характеристики личности, сферы й поведения.

Изложенное свидетельствует: характеристики валидности психодиагностического теста чрезвычайно сложные, ведь это комплексные описания содержания теста как диагностического инструмента. И все же только сформулирована дефиниция охватывает не всю совокупность существенных признаков этой категории теоретической психодиагностики. В комплекс сведений о валидности должны входить информация о конкретном ориентированность методики - перечень и характеристика контингентов испытуемых по возрасту, образованию, профессиональным признакам, социокультурной принадлежности и тому подобное. В каждом из таких конкретных случаев ориентация теста несколько меняется. Такое изменение тоже является элементом параметра валидности. Кроме того, в совокупность сведений о валидности теста должна включаться информация об адекватности используемой модели деятельности по отражению в ней исследуемой психологической особенности, а также о степени однородности задач (субтестов), входящих в состав теста, их конгруэнтность при количественной оценке данных теста в целом.

Едва ли не самая составная часть валидности - континуум изучаемых свойств. Этот аспект доминирует при определении конкретного набора методик, которые должны быть использованы при исследовании каких-то заранее указанных психологических свойств. Эта часть комплексной дифиниции валидносги, на наш взгляд, нуждается в дополнительной интерпретации. Прибегнем к примеру. Общая информация, имеющая отношение к названию теста, часто недостаточна для суждения о сфере его использования. Это только название, «Имя» конкретной процедуры исследования. И далеко не каждое такое «Имя» соответствует сути методики, ее конкретному назначению с точки зрения исследуемой психологического свойства. Можно привести пример широко известной в различных областях прикладной психологии корректурной пробы. Сфера исследуемых особенностей личности базируется на определении устойчивости и степени концетрации внимания (психомоторной подвижности). Корректурная проба по своим показателям хорошо согласуется с результатами других методик, нацеленных на такие же показатели (например, из таблицы Шульте, Горбова-Платонова и др.). Таким образом, корректурная проба к определению этих показателей имеет высокую валидность. В то же время на показатели выполнения корректурной пробы влияют многие другие факторы. Среди них: нейродинамических особенности - психофизиологические или темпераментные свойства, показатели кратковременной памяти, оперативной памяти, толерантность к монотонии, развитие навыка чтения, особенности остроты зрения и др. Такие факторы могут измеряться корректурной пробой, но этот тест не является специфическим для них. Если мы будем использовать корректурной пробы для измерения этих показателей, ее валидность будет или небольшая или сомнительна.

Итак, очерчивая сферу использования методики, валидность теста отражает уровень обоснованности результатов измерения. Понятно, что в случае относительно небольшого числа побочных факторов, влияющих на конечный результат теста, количественная оценка такого теста более точной. Еще в большей степени подлинность данных теста обеспечивается комплексом измеряемых свойств и их значимости относительно критериальной деятельности, полнотой и сущностью отражение в содержании теста объекта измерения. Так, для удовлетворения требований валидности методика, которая ориентирована на профессиональный отбор, имеет впитывать в себя показатели различных по своей природе качеств. Эти показатели, однако, должны быть важными, наиболее точно отражающими профессиограмму конкретной профессии, успех деятельности в которой диагностируется данной методике (например, уровень внимания, особенности памяти, качества психомоторики, эмоциональная уравновешенность, наклоны и многие др.).

Как видим, дефиниция валидности охватывает большое количество разнообразной информации о тесте. Различные категории, а также принципы организации информации о частичных области валидности образуют типы валидности (рис.). Такие типы валидности конкретно рассматриваться в последующих главах. Перед подачей этой информации заметим подразделения валидности выделяются лишь условно, а при рассмотрении увидим, что варианты рассмотрения критериев валидности во многом пересекаются по своему содержанию и путями определения.

Средства контроля диагностических качеств психологических тестов

2.1. валидность содержания

Валидность содержания - один из главных типов валидности, отражающий степень репрезентативности состава заданий теста - в соответствии с исследуемой психического свойства или функции, которая, в свою очередь, может выступать как сложный психологический конструкт. Для эффективного измерения такой сложной психологической особенности необходимо как можно полнее отразить все ее составляющие. Таким образом, психологический тест можно понимать как совокупность нескольких наборов тестовых заданий, каждый из которых ориентирован на исследование одной или нескольких сущностных частей составляющих психологического конструкта.

Сведения о валидность теста по содержанию в практической психологической диагностике обычно имеют наибольший вес для тестов достижений, исследующие деятельность - близкую или такую, что совпадает с реальной, чаще всего учебной или профессиональной.

Тесты достижений - это тип психодиагностических методик, ориентированных на квалификацию достигнутого уровня развития специальных способностей, навыков и полученных знаний в отдельных отраслях человеческой деятельности. От тестов интеллекта эти методики отличаются тем, что они отражают НЕ столько влияние накопленного опыта, общих способностей на поведение и решения широкого круга жизненных задач, сколько измеряют влияние специальных учебных программ, профессиональной подготовки на эффективность усвоения того или иного комплекса знаний и формирования различных специальных умений . Таким образом, тесты достижений ориентированы на оценку достижений личности после завершения определенного этапа обучения.

Другой особенностью тестов достижений, отличает их от тестов интеллекта, является их преимущественная направленность на измерение достижений во время проведения обследования, тогда как исследования общих способностей ориентировано на прогноз достижений, предсказания будущего развития.

Тесты достижений - самая многочисленная группа психодиагностических методик - как по количеству конкретных тестов, так и за их разновидностями. Среди них можно выделить универсальные, широко ориентированные тесты, которые применяются для оценки навыков и знаний в пределах главных, рассчитанных на длительное время направлений обучения (тесты понимание научных принципов, тесты восприятия литературы, понимание технических схем, владение компьютером и т.д.). Некоторые из них предназначены для измерения влияния обучения на логическое мышление, усвоение способов решения широкого круга задач. По составу задач и содержанием результатов эти тесты ближайшие к тестам интеллекта. Комплексные батареи тестов общих способностей - Multiply Aptitude Batteries; General Aptitude Test Battery, GATB.

Другую большую группу тестов достижений составляют методики, ориентированные на анализ качества изучения конкретных учебных программ, собственно говоря, отдельных предметов (достижения в чтении, математике, информатике и т.д.). Существуют и более специализированные тесты достижений, используемых при исследовании усвоения отдельных тем, частей учебной программы.

Тесты достижений, используемых в школьной и профессиональной психодиагностике, имеют заметные преимущества по сравнению с существующей системой оценивания академической успеваемости учащихся. их показатели ориентированы на анализ усвоения краеугольных понятий, элементов учебных программ, а не какой-то конкретной, нередко случайной совокупности знаний, как это масс место при традиционной школьной системы. Благодаря стандартизации показателей тесты достижений позволяют сопоставить уровень достижений ученика результатам в академической группе, а также в любой другой выборке. Понятно, что такая оценка достижений испытуемых будет объективной и иметь отношение к прогнозу успешности усвоения той или иной области знаний, профессии. И это качество тестов достижений, а также незначительные затраты времени и усилий на их проведение в относительно больших группах абитуриентов делает тесты достижений чрезвычайно полезным инструментом для проведения вступительных экзаменов. Но для того, чтобы тест достижений самом деле объективно отражал существенные стороны усвоения какой-то области знаний, нужно, чтобы контрольные задания действительно касались важных элементов учебного материала, обеспечивающих его понимание. Именно для этого и необходимо анализ валидности теста по содержанию.

Главная задача разработки адекватной модели деятельности, подлежащей тестированию, - это выяснение вопроса: охватывает подборка заданий теста именно такие аспекты феномена изучаемого которые являются ведущими, да подобраны они в соответствующей реальной деятельности пропорции?

Требования соблюдения валидности к содержанию закладываются в тест уже в начале его конструирования. Первым этапом валидизации является определение круга свойств и видов деятельности, исследуются, а также разделение сложной способности (свойства) или деятельности на составляющие. Модель самой тестовой деятельности разрабатывается на втором этапе. Состав элементов модели группируется в соответствии с важнейшими элементами реальной деятельности. На последнем этапе проводится анализ степени репрезентации в разработанной модели реальной деятельности или свойства и проверка совместимости пропорций элементов сложной деятельности в заданиях теста. Так, для тестов достижения, специально ориентированных на анализ понимания конкретных учебных предметов, сначала проводится полная

продолжение следует...

Продолжение:

Часть 1 Средства контроля диагностических качеств психологических тестов
Часть 2 1.3.3. Надежность частей теста - Средства контроля диагностических качеств психологических
Часть 3 2.2. эмпирическая валидность - Средства контроля диагностических качеств психологических тестов
Часть 4 2.3. коэффициенты валидности - Средства контроля диагностических качеств психологических тестов
Часть 5 5. Показатели тяжести заданий теста - Средства контроля диагностических качеств

1.3.3. Надежность частей теста - Средства контроля диагностических качеств психологических

1.3.3. Надежность частей теста

1.4. Определение надежности проективных тестов

2. Валидность психологического теста

2.1. валидность содержания

Продолжение:

Комментарии

Оставить комментарий

Математические методы в психологии

Термины: Математические методы в психологии