Лекция
Это продолжение увлекательной статьи про средства контроля диагностических качеств психологических тестов.
...
или еще невыясненными факторами, выяснить общие и специфические для группы сопоставляемых тестов факторов и степень их наличии в результатах (то есть установить факторный состав и факторные нагрузки результатов теста). Исключительная важность такой процедуры дает основания для выделения ее в особый вид конструктной валидности - факторную валидность.
Важным аспектом конструктной валидности является внутренняя согласованность, определяющий, насколько отдельные пункты (задачи, вопросы), составляющие материал теста, подчинены основной направленности теста как целого, ориентированные на диагностику одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем корреляция ответов на каждое задание с общим результатом теста. Заметим, что критерий внутренней согласованности указывает лишь на степень связи всего контекста методики по каким-то неизвестным конструктом, не давая информации о том, какая именно природа этой измеряемой особенности.
В комплекс сведений о конструктной валидность методики входят и данные, традиционно относятся к сфере критериальной валидности и валидности содержания. Так, критерии, применяемые при валидизации, содержащие существенную информацию для раскрытия поведения, качества способности, представленные в тесте в виде конструкта. Связь с практическими формами деятельности, вероятность прогноза реального поведения также чрезвычайно важны для характеристики конструктной валидности. Однако конструктной валидность занимает качественно более высокую ступень в квалификации теста из-за того, что она характеризует область измеряемой поведения в широких психологических категориях. Благодаря данным конструктной валидности мы можем с научно обоснованных позиций интерпретировать результаты теста, их дисперсию, а также установить диагноз, вводя измеряемую качество в систему психологических категорий.
Настоятельная необходимость углубленного анализа психологического конструкта может быть проиллюстрирована на примере двух популярных опросников, а именно Шкалы проявлений тревоги Ж.Тейлора (MAS) и личностного опросника Х.Айзенка (ЭРИ). Коррелятивные исследования указывают на то, что Шкала MAS положительно коррелирует со шкалой «нейротизма» опросника ЭРИ и отрицательно со шкалой экстраверсии. С точки зрения концепции Айзенка, эти данные можно трактовать как удостоверение низкой валидности шкалы MAS: «тревожность» коррелирует не только с релевантным фактором нейротизма, но и с ирелевантним фактором интроверсии. Таким образом, Шкала MAS просто нечувствительной к особой разновидности «нейротизма» - тревожности экстравертов. По вопросам Шкалы исключены высказывания, в которых могла бы оказаться тревожность экстравертов. Несмотря на теоретический смысл, который приписывается показателям MAS К.Спенсом и Ж.Тейлор, эта ситуация вполне закономерна и отнюдь не является артефактом. По К.Спенсом, который пытался перенести на человеческое поведение теорию обучения Халла, MAS измеряет общий уровень драйва - неспециализированного поезда, как раз и достигает максимума при сходимости нейротизма (специфическая активация по Айзенком) и интроверсии (неспецифическая активация). Итак, как видим, название теста далеко не всегда полностью отражает теоретический статус измеряемого конструкта. В данном примере особенно подчеркивается роль психологической теории, которая лежит в основе методики в раскрытии содержания показателей, диагностируются с ее помощью.
Одним из типичных приемов анализа конструктной валидности тестов общих способностей является характеристика возрастной дифференциации результатов теста отражает динамику изменений рассматриваемого с помощью теста критерия в зависимости от возраста испытуемых. Анализ конструктной валидности реализуется через определение степени соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям исследуемого конструкта.Если в группе испытуемых из выборки валидизации наблюдаться прогрессивное увеличение показателей, по своим параметрам приближаются к известной скорости развития свойства интеллекта, которая измеряются данным тестом, то это в определенной степени подтверждением того, что тест направлен на исследование обозначенной свойства интеллекта.
Определение конструктной валидности методом возрастной дифференциации получило наибольшее значение при валидизации тестов, разработанных для измерения психологических свойств и функций, которые отличаются относительно быстрым изменением под влиянием индивидуального опыта, а также заметной иерархичностью ступеней развития (осведомленность, навыки, интеллектуальные операции и т.д.). Учитывая это метод возрастной дифференциации становится едва ли не самыми главными оценочным критерием валидации тестов интеллекта, особенно предназначенных для детского возраста. В таких методиках закономерное повышение результатов выполнения заданий теста в каждой последующей возрастной группе является основным психометрическим принципу диагностики, базой для образования психометрической шкалы. Через характеристику степени точности определения возрастных этапов развития исследуемых конструктов прослеживаются связь метода возрастной дифференциации методом определения диагностической валидности. Анализ возрастной дифференциации имеет существенное значение и для методик, использующих в клинической психодиагностике с целью дифференциальной диагностики возрастных и патологических изменений, а также для обследования лиц пожилого возраста.
В некоторых случаях критерий возрастной дифференциации отражает связь с прогностической валидностью методики. Наличие высоких показателей по критерию возрастной дифференциации, означающие стабильную смену исследуемых свойств при переходе от одной возрастной группы в другую, повышает точность индивидуального прогноза.
Следует, однако, учитывать, что за критериальной валидизации, как правило, существует потребность в высокой степени корреляции между показателями теста и критерием валидизации, тогда как при анализе конструктной валидности высокая степень связи результатов контролируемого и эталонного тестов вовсе не обязателен . Если же новый и эталонный тесты практически идентичны по составу и конструктной нагрузкой, а также если новый тест не является компактным и экономичным, это будет свидетельствовать только дублирование методики, оправдано только с точки зрения потребностей составления параллельных форм или модификации теста. Содержание процедуры конструктной валидизации заключается в установлении как сходимости, так и различия исследуемого комплекса психологических феноменов по сравнению с эталонным тестом.
При анализе конструктной валидности методики формулируется ряд гипотез относительно того, как будет коррелировать разрабатываемый тест с широким кругом других методик, ориентированных на измерение конструктов, которые находятся в теоретически известной или предполагаемой корреляции со свойствами, которые измеряет контролируемый тест. При этом принимаются во внимание результаты тестов не только имеющих отношение к данному конструкта, но и любых других. Так, если на результаты теста интеллекта совершенно не влияют показатели измерения эмоциональных состояний, контролируемый тест исследует «чистые» свойства интеллекта, относительно свободные от влияния эмоционально-волевых факторов. Сравнение эталонного и контролируемого теста может осуществляться процедур конвергентной (проверки степени проявления прямого или обратной связи результатов теста) и дискриминантной (установление отсутствия связи) валидизации. Благодаря приема подтверждения или отклонения гипотез о характере связи контролируемого теста с эталонным в психологической диагностике иногда конструктной валидность терминологически обозначается как «предусмотрена» валидность (assumed validity).
Для определения степени валидности в количественных показателях на практике чаще всего используются различные виды коррелятивного анализа связи между индивидуальными оценками теста и валидизацийним критерию (или характера связи между результатами теста валидизуеться, и другой методике, которая используется как эталонная). В основном распределение тестовых оценок в репрезентативной выборке валидизации приближается к нормальному. Если тестовые и критериальные оценки имеют континуальный характер, тогда может быть использован коэффициент корреляции произведения моментов Пирсона:
где х i, в i - сравниваемые количественные признаки; n - число сравниваемых наблюдений; σ х, σ в - стандартные отклонения в сопоставимых рядах. Удобной для расчета r ху есть такая формула:
В зависимости от того, в какой измерительной шкале представлены тестовые и критериальные показатели, используют те или иные средства корреляционного анализа. Если один из рядов представлен в дихотомической шкале, а другой - в интервальной или порядковой, используют бисериальный коэффициент корреляции Пипсона:
где х 1 - среднее за X объектами со значением единица по Y; x 0 - среднее по X объектами со значением ноль по Y; S x - стандартное отклонение всех значений по X; n х - число объектов с единицей по Y; n в - число объектов с нулем за Y, то есть n = n 1 + n 0. Уравнения для расчета г Рb является алгебраическим упрощением формулы определения коэффициента r ху для случая, когда Y - дихотомическая переменная. Можно привести ряд других эквивалентных выражений, удобных для практического использования. это:
где х - общее среднее по X.
Возможен такой случай, когда тестовые оценки и критериальные показатели представлены дихотомическими альтернативными определениями (например, нормальное развитие - задержка развития, совпадение - несовпадение ответы с ключом) тогда используют коэффициент ассоциации Пирсона, который по своей сути является упрощением уравнение для определения r ху:
Предположим, что переменная принимает значение единицы и нуля. Тогда р х, р у - доля случаев с единицей по признакам X и Y; q x, q y - с нулем за X и Y; q = P-1, г. ху - доля случаев с единицей как по X, так и по Y.
Наскладнишим случаем является такой, когда оба сравниваемых ряды представляют собой оценки, выраженные в качественной шкале наименований. Тогда используют критерий согласованности Пирсона:
В этом уравнении как промежуточную величину используют критерий хи-квадрат.
Наряду с коэффициентами валидности, которые определяются традиционным способом, существуют и некоторые другие измерители количественной оценки валидности теста. Среди них можно назвать j - коэффициент (предложен Е.Примовим (1975)), который является одним из показателей синтетической валидности. Процедура его определение предполагает наличие перечня элементов сложной деятельности или способности, выраженные языком профессиональных или других специальных действий, и оценку относительной важности этих элементов, устанавливается экспертами. Конечный анализ проводится с помощью корреляция оценок теста и отдельных элементов реальной деятельности с учетом их удельного веса. Статистическая обработка базируется на вычислении множественной регрессии. Показатели корреляции каждого элемента деятельности по критериальной деятельностью в целом умножаются на частичную вес каждого из элементов в тесте; полученные таким образом произведения суммируются.
Коэффициенты валидности важны, но далеко не исчерпывающими характеристиками валидности теста. Нужно отметить, что валидность не измеряется, о ней только судят. В методических материалах к тесту могут быть приведены коэффициенты валидности, но о реальной валидность теста в условиях его конкретного использования судят по совокупности самых разнообразных видов информации, полученной различными способами. Валидность трактуется не как нечто, выраженное количественно, а как «адекватная», «удовлетворительная», «недостаточная» и т.д. Таким образом, коэффициенты валидности является лишь элементом сложного процесса характеристики валидности теста.
Сомнительность отдельного рассчитанного коэффициента валидности может опосередковуватися многими факторами. Во-первых, условия валидности теста невозможно всесторонне учесть. Всегда остается немало неучтенных фактов, ситуаций, условий и т. Во-вторых, сама логика критериальной валидизации предусматривает требование валидности критерия. Проверка же такой валидности является очень сложной проблемой. К тому же тесты нередко валидизуються не с помощью существенного критерия, а на базе использования имеющегося, наиболее доступного критерия. Так, тесты общих способностей сопоставляются не из критериям качества мышления, нейрофизиологическими и психологическими коррелятами задатков и способностей, а с показателями успеваемости или выполнения определенной деятельности. Эти показатели сами по себе являются сложными, и кроме интеллекта на них влияет много других факторов. В-третьих, условия валидизации по критерию предполагают, что выборка валидизации полностью репрезентативная по популяции, действие которой делают окончательные выводы по тесту. На практике это требование удовлетворить чрезвычайно сложно, особенно в случае прогностической валидации.
Самая большая сложность интерпретации коэффициентов валидности связываются с такими обстоятельствами. Исходная валидация основывается, как правило, на совокупности внешних, социально-прагматических критериев. Это вызывается тем, что главная цель валидации - определение практической ценности разрабатываемой методики. Критерии в этом случае выступают как показатели, имеющие непосредственную ценность для отдельных отраслей практики. Например, «успешность обучения», «производительность труда», «преступность», «состояние здоровья» и т.д. При ориентации на эти категории при валидизации решаются сразу две задачи: собственно измерения валидности и оценки прагматической эффективности психодиагностической методики. Если выявлена корреляция, то можно считать, что с определенной степенью вероятности положительно решены обе задачи. Но если корреляции не обнаружено, остается неопределенность: или невалидный сама процедура (тестовый балл не отражает, например, стрессовой устойчивости оператора), или несправедлива гипотеза о наличии причинной связи между психической свойством и социально-прагматическим показателем (устойчивость к стрессу не влияет на количество аварийных ситуаций).
Наряду с названными теоретическими и методическими сложностями необходимо принимать во внимание и обеспечения статистической достоверности исчисляемых коэффициентов. Делая выводы о валидность на базе коэффициентов, надо быть уверенным в том, что данный коэффициент не появился через случайные отклонения в выборке. Необходимо оценить стандартную погрешность тестовых оценок. Используемый при этом показатель погрешности измерения указывает на допустимые пределы ошибки в индивидуальных показателях вследствие ограниченной надежности теста. Аналогично погрешность оценки указывает на пределы возможной ошибки в прогнозируемом значении индивидуального критериального показателя как результат ограниченной валидности теста.
Погрешность оценки может определяться по следующим уравнением:
где σ в - стандартное отклонение критериальных показателей; r ху - коэффициент валидности; √ (l - r 2 xу) - выражение, указывающее на величину погрешности относительно погрешности простого угадывания, то есть при нулевой валидности. Если √ (l - r 2 xу) = 1, то погрешность так же велика, как и при угадывании. Если коэффициент валидности равен 0,80, то √ (l - r 2 xу) = 0,60, то есть доля ошибок составляет 60% той величины, которая была за случайного распределения.
Очевидная валидность - это представление о тест сферу его использования, результативность и прогностическую ценность, возникает в подопытного или любой другой лица, не имеет специальных сведений о характере использования и направленность методики. Собственно говоря, очевидна валидность не является компонентом объективно устанавливаемой валидности. В то же время высокая очевидна валидность является частью весьма желанной. Она является существенной детерминантой мотивированности испытуемых в обстежуванни, стимулирует серьезнее и ответственнее отношение к работе, к выводам психолога.
Достаточный уровень очевидной валидности особенно важно для методик, предназначенных для обследования взрослых. Если состав тестовых заданий будет казаться несерьезным, чрезмерно легким, таким, что не соответствует сути исследуемой сущности, это может привести к ироничного, негативно критического или даже враждебного отношения испытуемых к ситуации обследования. Напротив, гипертрофированное отношение к возможностям методики, не совсем адекватная представление о ее направленность и прогностическую ценность могут вызвать чрезмерную мотивацию, нежелательную эмоциональную напряженность, тенденцию симулировать или дисимулюваты ответа. Понятно, что в приведенных примерах за счет неадекватной очевидной валидности реальная валидность теста резко снизится.
Воображение подопытных и пользователей психодиагностической информации об очевидной валидность немалой степени связывается с названием методики, поскольку эта часть сведений о тест самая доступная неспециалистам. Следует избегать туманных, слишком общих названий на бланках опросных листов, тестовых тетрадях, которые могут быть неверно истолкованы (например, «Тест личности», «Тест умственных способностей», «Комплексная батарея оценки достижений» и т.п.). Адекватность представления о валидность методики повышается за счет введения в инструкцию для подопытного краткой информации о цели исследования.
Очевидная валидность повышает привлечения к тексту задач, которые являются самым естественным с точки зрения вдов, половой, профессиональной специфики испытуемых. С целью повышения очевидной валидности следует избегать малопонятных формулировок и специальных терминов. Неадекватно завышена очевидна валидность вызывает более обнаруженный феномен контаминации критерию.
Заметим, что очевидна валидность в англоязычной психологической диагностике называется «внешней валидности» (face validity), а также «валидности доверия» (faith validity).
При исследовании валидности проективных методик наиболее выясненным аспектом является текущая исходная валидность. Чаще всего текущую критериальную валидность проективных тестов изучают сравнением результатов в контрастных группах. Поскольку большинство проективных тестов используется в клинической психодиагностике, чаще всего берут объективный критерий медицинского диагноза, фиксирующий факт «здоровья» или «нездоровья». При валидизации устанавливают такие показатели-симптомы, надежно дифференцируют испытуемых определенному критерию. По такой модели проводилась валидизация теста ТАТ.
Другим распространенным средством контроля текущей валидности является сравнение данных теста с «портретом личности». Информация о личности может анализироваться на основании бесед, наблюдений, экспертных заключений педагогов и тому подобное.
По сравнению с текущей валидность показатели прогностической валидности изучаются реже. Анализ этих показателей в основном осуществляют в лонгитьюдних и ретроспективных наблюдениях. Трудности удаленной валидации связанные с проблемой установления связи прогностического критерия с текущими особенностями личности.
Проблема критериальной валидизации проективных тестов определяется специфическими чертами, отличающими проективные техники объективных тестов и опросников личности. Первые ориентированы на широкую «обсервационное» информацию о различных свойствах личности, в то время как объективные тесты и опросники измеряют ограниченный круг признаков и свойств, к которым значительно легче подобрать критерий валидизации.
В конкретных испытуемых в проективном тесте по-разному проявляется то или иное свойство личности. Например, у одного из испытуемых можно обнаружить большое количество симптомов агрессии и незначительное проявление признаков творческих способностей. В ответах другой, наоборот, будут доминировать творческие симптомы, а агрессивность может и не оказаться. Отсутствие единой иерархии регистрации симптомов для испытуемых приводит к низким показателям критериальной валидности, если анализировать тест отношении каждого из симптомов по всей выборке валидизации. Высшие и адекватные показатели будут достигнуты при анализе «констелляцией», комплексов симптомов, связанных с конкретным диагнозом.
Наименее разработанным, но исключительно важным вопросом анализа критериальной и конструктной валидности проективных техник есть очевидная разница между реальным (критериальным) внешним способом поведения и его проекцией в фантазии подопытного. Так, сексуальные импульсы на фоне социальной тревожности и специфического воспитания, конечно, ярче проявляются в фантазиях, чем в реальном поведении. Но при наличии психопатических отклонений агрессивная сексуальность может одинаково выразительно проявляться как в проекции, так и в критериальной поведении.
Внутренняя согласованность (консистенция, консистентнисть) - характеристика тестовой методики, указывает на степень однородности состава задач по измеряемой тестом качества, способности или линии поведения. Критерий внутренней согласованности является существенным элементом конструктной валидности теста, ведь он определяет задания по их направленности на определенный конструкт, измеряет вклад каждого пункта (задания или вопросы) в отображения исследуемой психологического свойства. Понятно, что максимальная валидность теста достигается за счет отбора именно таких пунктов, которые, имея положительную корреляцию с общим результатом теста одновременно минимально коррелируют между собой. Если между отдельными задачами будут наблюдаться высокие показатели корреляции (положительные или отрицательные), такой тест будет перегружен лишними пунктами (задачами), которые практически однозначными .. Это приведет неоправданное увеличение объема заданий теста, а это, в свою очередь, приведет к увеличение срока и объема работы подопытного и исследователя, а также приведет к ухудшению надежности методики. Таким образом, отбор задач по критерию внутренней согласованности обеспечивает наибольшую прагматическую эффективность теста. Благодаря такому критерию, как правило, методика комплектуется преимущественно такими задачами, максимально связанные с исследуемым показателем.
На практике внутренняя согласованность определяется путем исследования корреляции между результатом теста в целом и каждым отдельным заданием. Чаще всего для этого используется показатель бисериальный корреляции между характером решения каждой задачи ( «выполнено» - «не выполнены», поддержка или отрицание утверждения в анкете, вариант ответа на вопрос опросника и т.п.) с суммарной оценкой всех пунктов теста. Таким образом, наиболее согласованным будет такой вопрос или задание или их совокупность, «работает» в соответствии с всей совокупности пунктов методики. Не надо быть слишком наблюдательным, чтобы заметить некоторое противоречие между двумя частями дефиниции критерия внутренней согласованности: задача должна максимально принадлежать к одной сферы поведения, и такие задачи не могут коррелировать между собой. Простое определение бисериальный корреляции указанным способом не позволяет решить такую контроверс. Этого можно достичь благодаря использованию сложной процедуры определения внутренней согласованности через анализ частичных корреляций между общим результатом теста и отдельными задачами, предусматривает составление уравнения множественной регрессии. В таком уравнении каждый пункт имеет свой «весовой» коэффициент, количественно отражает вклад этой задачи в общий результат. Этот вклад отделяется от взносов других задач. Преимущество такого метода еще и в том, что такой «весовой» коэффициент (удельный вес пункта в общей диагностике) может использоваться как «ключ» для данной задачи. Это существенно повышает подлинность результатов личностных опросников. Благодаря наличию таких коэффициентов по каждому из вопросов окончательную сумму баллов можно подсчитывать дифференцированно, в соответствии с важности каждого симптома. Традиционно подсчет результата опросника проводится по системе «1» или «0» баллов в зачет конечного результата в случае совпадения или несовпадения ответы с «ключом». При этом важность отдельных ответов - с точки зрения исследуемой черты - не обращают внимания, что погрублюе точность исследования.
При анализе внутренней согласованности иногда используется метод уравнения контрастных групп, которые формируются из испытуемых, имеющих самые высокие и самые низкие суммарные баллы. Выполнение каждого пункта в группе лиц с высоким результатам по тесту в целом сравнивают с его выполнением в группе с низкими баллами. Те задачи, по которым испытуемые из первой группы не имеют значительно лучших результатов, чем испытуемые второй группы, признаются невалидный. Обнаруженные несовершенны задачи или отвергаются или пересматриваются.
До сих пор были рассмотрены случаи анализа показателей внутренней согласованности отдельных задач изолированного психологического теста. Однако внутренняя согласованность - важная характеристика диагностической ценности субтестов комплексной тестовой батареи. В этом случае критерий внутренней согласованности имеет отношение к имеющейся корреляционной взаимодействия между данными отдельных субтестов и интегративным результатом. Большое количество тестов интеллекта, например, состоит из субтестов, которые используются отдельно друг от друга (словарные, арифметические, практические, субтеста общих сведений и т.д.). При построении таких батарей тестов определяется степень связи показателей с общим IQ и, так же как в предыдущем случае, субтеста плохо коррелируют с батареей в целом, отвергаются или перерабатываются. Коэффициенты корреляции в виде матрицы, где приведены количественные меры связи между отдельными субтестам, а также между ними и общим показателем, является свидетельством внутренней согласованности тестовой батареи, степени взноса ( «ценности») отдельных субтестов по исследованию сложного конструкта. Вспомним, что коррелятивные связи между отдельными субтестам должны быть минимальными, в то время как связь каждого из них с конечным результатом - максимальным.
Анализ внутренней согласованности составных частей методики ориентирован не только на практические цели повышения однородности задач. Этот критерий позволяет углубить представление о природе исследуемого конструкта, его контекстуально-теоретический статус. На базе анализа содержания пунктов, уже отобраны по критерию внутренней согласованности, можно определить и конкретные границы исследуемого конструкта, например набор отдельных качеств интеллекта, которые изучаются с помощью теста.
По процедуре определения критерий внутренней согласованности приближается к характеристике дискриминативности заданий теста. Этот показатель будет рассматриваться в следующем - четвертом разделе. Отметим: несмотря на родственную технику определения, эти критерии в корне отличаются. Критерий внутренней согласованности ориентирован на оценку всего теста, его своеобразной «внутренней» валидности, присущая совокупности задач. Индексы дискриминативности отражают диагностическую силу только отдельных пунктов. Следовательно, определение дискриминативности отдельных задач является подготовительной процедурой анализа внутренней согласованности теста в целом.
Дискриминативнисть заданий теста - это способность отдельных задач методики различать испытуемых с высоким или низким тестовым результатом, а также субъектов с высокой производительностью реальной (критериальной) деятельности от тех, в которых она низкая.
Любой ответ подопытного может быть представлена в дихотомической шкале - «правильно», «да» - один балл, «неправильно», «нет» - ноль баллов. Сумма таких баллов по всем заданиям теста представляет собой первичную ( «сырую») оценку. Мера совпадения успешности решения отдельных задач и всего теста в выборке испытуемых является непосредственным показателем дискриминативности заданий теста, который исчисляется в виде точечно-бисериальный коэффициента корреляции и называется коэффициента дискриминации (индекса дискриминации):
где х - среднее арифметическое значение всех индивидуальных оценок по тесту; х n - среднее арифметическое значение оценок в тех испытуемых, которые правильно выполнили данный пункт (в случае опросника личности - совпадение с «ключом»); σ х - среднее отклонение индивидуальных оценок по тесту для выборки; N n - количество испытуемых, правильно решили задачу (или тех, чья ответ на данный пункт опросника соответствует «ключу»); N - общее количество испытуемых.
Приведенное уравнение является пригодным для расчета коэффициента дискриминации только в случаях, когда все подопытные подали ответы на все без исключения задания теста. Когда количество ответов неполная, есть смысл рассчитывать коэффициент дискриминации по другой формуле, а именно:
где х - среднее арифметическое значение индивидуальных оценок тех испытуемых, которые дали ответ на задание; σ х д - среднее отклонение индивидуальных оценок по тесту у тех, кто ответил на задания; Nд - общее количество испытуемых, дали ответ на задание.
Коэффициент дискриминации может принимать значения от -1 до +1. Высокий положительный r Рb означает, что конкретный пункт теста надежно распределяет испытуемых, имеющих высокие и низкие баллы. Высокий отрицательный r Рbсвидетельствует негодность задачи, недостаточная связь частичного результата с конечным выводом.
Коэффициент дискриминативности заданий теста представляет собой, по сути, показатель критериальной валидности задача, поскольку он определяется относительно внешнего критерия - итогового результата или производительности критериальной деятельности подопытного. Индекс дискриминативности может определяться с применением метода контрастных групп. Необходимым условием использования этого средства является наличие близкого к нормальному распределению оценок по критерию валидизации. Доля испытуемых в контрастных группах может меняться в широких пределах в зависимости от объема выборки: чем больше по объему является выборка, тем меньшим процентом испытуемых можно ограничиться при выделении групп с высоким и низким результатам. Нижняя граница выделения группы составляет по 10% для каждой из групп от общего числа членов выборки, верхняя граница - по 33%. Десятивидсоткови группы используются довольно редко, поскольку малое количество случаев снижает статистическую надежность индексов дискриминации. Чаще из выборки выделяют по 25-27% испытуемых.
Индекс дискриминации вычисляют как разницу между долями лиц, успешно решили задачу - отдельно по высоко- и низкопродуктивных группах. Такой индекс
продолжение следует...
Часть 1 Средства контроля диагностических качеств психологических тестов
Часть 2 1.3.3. Надежность частей теста - Средства контроля диагностических качеств психологических
Часть 3 2.2. эмпирическая валидность - Средства контроля диагностических качеств психологических тестов
Часть 4 2.3. коэффициенты валидности - Средства контроля диагностических качеств психологических тестов
Часть 5 5. Показатели тяжести заданий теста - Средства контроля диагностических качеств
Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Математические методы в психологии
Термины: Математические методы в психологии