Характеристики хорошего теста?

Потому, что другие средства и тесты анализа играются ответственную практическую и научную роль, нужно, дабы они совершенно верно измеряли то, для чего предназначены, в частности они должны владеть валидностью и надёжностью.

Тесты кроме этого должны быть стандартизированы; под этим понимается, что условия прохождения теста должны быть однообразными для всех тестируемых. К примеру, инструкции, сопровождающие тест, должны быть однообразными для всех тестируемых лиц.

Надежность.В случае если тест либо способ оценки надежен, он обязан давать воспроизводимые и согласованные результаты. В случае если тест дает различные результаты при применении его в различных случаях либо при исполнении подсчетов различными людьми, значит, он ненадежен. Несложная аналогия — резиновая линейка. В случае если неизвестно, как она растягивается при каждом измерении, то результаты будут ненадежны, независимо от того, как бережно проводилось каждое измерение.

В большинстве случаев, надежность оценивается методом соотнесения двух групп показателей. К примеру, одинаковый тест возможно дать той же группе испытуемых два раза. В случае если тест надежный, то показатели испытуемых в первом случае должны высоко коррелировать с показателями во втором. В случае если это так, то говорят, что данный тест владеет повторяемой надежностью либо временной стабильностью.

Само собой разумеется, в настоящей практике мало кто захочет давать одинаковый тест тем же людям два раза. Но имеется большое количество обстановок, в то время, когда появляется желание совершить подобные виды того же теста — к примеру, в то время, когда обучающиеся выпускного класса школы , намерившиеся поступить в колледж, желают два раза пройти Тест школьной успеваемости (Тест Отвлечённых Свойств) (Scholastic Assessment Test, SAT). Дабы убедиться, что две формы того же теста дают эквивалентные показатели, обе они предлагаются той же группе людей и после этого сопоставляются. В случае если взята высокая корреляция между ними, то говорят, что данный тест владеет надежностью при трансформации формы. Кое-какие из вопросов, входящих в SAT, в действительности не связаны с показателями обучающегося, но они оцениваются статистически, дабы их возможно было применять в будущем в подобных формах этого же теста.

Второй неспециализированной мерой надежности есть внутренняя согласованность теста — то, в какой степени различные его вопросы либо пункты измеряют одно да и то же. Это возможно оценить методом вычисления корреляции между показателями, взятыми группой индивидов по всему тесту и каждому пункту в целом. Каждый пункт, не коррелирующий с неспециализированным показателем, есть ненадежным; он не вносит вклад в измеряемый тестом параметр. Отбрасывание ненадежных пунктов «очищает» тест, повышая его внутреннюю согласованность. С повышением числа надежных элементов в тесте растет и надежность неспециализированного показателя теста.

Результаты анализов и большинства тестов обрабатываются объективно, значительно чаще компьютером. Но время от времени требуется оценить умственную деятельность либо социальное поведение субъективно. Привычный пример этому — экзаменационные опробования. Дабы оценить надежность таких субъективных суждений, посредством свободных судей приобретают две либо более групп данных, каковые сопоставляются между собой. К примеру, два наблюдателя смогут независимо оценивать группу детсадовских детей на агрессию; либо двух либо более судей смогут попросить прочесть прошлые инаугурационные обращения президента и оценить их с позиций оптимистичности либо количества негативных ссылок на Ирак. В случае если корреляция между оценками судей высока, то говорят, что этот способ владеет межэкспертным согласием либо межоценочной надежностью.

По большому счету, прекрасно выстроенный, объективно обработанный тест свойства обязан снабжать надежность не меньше 0,90. Для субъективных суждений и тестов личности, используемых в исследовательских целях, приемлемым время от времени возможно коэффициент 0,70, но наряду с этим заключения о конкретном человеке направляться делать с громадной осторожностью. Как отмечалось выше, надежность неспециализированного показателя теста возрастает с ростом числа надежных пунктов теста. Это же рассуждение возможно применить к субъективным оценкам и повысить надежность способа, добавив больше судей, оценщиков либо наблюдателей. К примеру, в случае если корреляция оценок двух наблюдателей образовывает лишь 0,50, то исследователь может добавить третьего подобного наблюдателя и тем самым повысить межоценочную надежность их суммарных оценок до 0,75; с добавлением четвертого оценщика надежность возрастет до 0,80.

Валидность.Надежность показывает, как тест способен измерять что-то, но высокая надежность не гарантирует, что данный тест измеряет как раз то, что требуется; она не гарантирует валидности (адекватности) теста. К примеру, в случае если в последнем экзамене вашего курса психологии видится через чур много тяжёлых слов либо заковыристых вопросов, то он может оказаться тестом ваших вербальных свойств либо вашей изощренности, а не усвоения материала курса. Таковой экзамен возможно надежным: при повторном прохождении обучающиеся возьмут те же оценки и отдельные компоненты экзамена будут измерять одно да и то же, — но это не будет валидным тестом достижений в данном курсе.

Время от времени валидность теста возможно оценить, сопоставив показатель теста с некоторым внешним критерием. Такая корреляция именуется коэффициентом валидности. К примеру, довольно сильная хорошая корреляция между показателями в SAT и удачами первокурсника в колледже говорит о том, что у этого теста приемлемая валидность. Валидность для того чтобы рода именуется критериальной, либо эмпирической, валидностью. Учитывая чувствительность тестов к расовым и половым различиям, суды все чаще требуют от правительственных агентств и компаний, использующих тесты для отбора персонала, дабы эти тесты коррелировали с показателями работы человека, другими словами дабы они владели критериальной, либо эмпирической, валидностью.

Валидность особенного рода, относящаяся особенно к тестам, используемым в изучениях личности, именуется конструктивной валидностью. В случае если исследователь формирует тест для измерения некоего понятия либо концепции, являющихся частью теории, не всегда возможно вычислить единый коэффициент, что показывал бы его критериальную валидность, потому, что малоизвестен внешний критерий. К примеру, как исследователю оценить валидность теста на мотивацию к достижению успеха? Тут возможно пара возможностей. Возможно дать данный тест важным исполнителям компаний и взглянуть, коррелирует ли он с их заработной платом. Быть может, данный тест будет коррелировать с оценкой преподавателями честолюбия собственных учеников. Неприятность в том, что нет единого критерия, что исследователь готов был бы принять за окончательный «подлинный» ответ. В случае если тест коррелировал с заработной платом важных исполнителей, это смотрелось бы убедительным, но в случае если нет, исследователь не был бы склонен оценить данный тест как невалидный. В психологии личности это известно как неприятность критерия: не существует меры «истины», разрешающей признать тест валидным. Соответственно, исследователь вместо этого пробует установить его конструктивную валидность.

Это осуществляется в самом ходе изучения. Ученый применяет собственную теорию и для построения теста, и для прогнозирования вытекающих из нее следствий. После этого проводятся изучения с применением этого теста, дабы проверить прогноз. В той степени, в которой результаты нескольких конвергирующих изучений подтверждают предсказания теории, и эта теория, и сам тест в один момент получает валидность. Чаще оказывается, что смешанные результаты показывают на то, в каком направлении должны быть модифицированы и тест и теория.

В частности, Мак-Клелланд (McClelland, 1987) внес предложение теорию мотивации к достижениям, которая, по его плану, должна была выявлять честолюбивых высокорезультативных индивидуумов в любой сфере деятельности и растолковывать их высокую мотивацию. Для проверки этих теоретических догадок был создан тест, оценивающий уровень мотивации к достижениям. Результаты нескольких изучений говорят о том, что предсказания, в соответствии с данной теории, подтверждаются для мужчин, занимающихся предпринимательской деятельностью, но не для дам либо индивидуумов, занимающихся вторыми видами деятельности, к примеру научными изучениями. Соответственно, теория была модифицирована для применения в основном по отношению к достижениям в области предпринимательства, а тест был модифицирован так, дабы он являлся более валидным и для дам.

Какое масло лучше заливать в двигатель, тест нагревом часть 2

Похожие статьи: