ОТКУДА БЕРУТСЯ КЛЮЧИ К ТЕСТУ

ОТКУДА БЕРУТСЯ КЛЮЧИ К ТЕСТУ

(из цикла «Критерии научности в тестологии»)

в прошлом номере «Школьного психолога» (см. № 47, декабрь 1999 г.) мы с вами обсудили, что такое измерительные тесты, чем они отличаются от авторских, как происходит стандартизация тестовых шкал. Сегодня продолжим разговор о критериях научности психологических тестов. Наверное, большинству читателей известно, что важнейшим критерием научности любой методики, и в частности психологических тестов, является «объективность».

ТЕХНОЛОГИЧЕСКИЙ АЛГОРИТМ

Полное непонимание того, откуда психологи берут ключи к тестам, нередко состоящим из косвенных и проективных вопросов, порой рождает у некоторых испытуемых (привыкших к рациональному контролю событий своей жизни) настоящий протест с элементами агрессивности: «Зачем вы задаете мне этот дурацкий вопрос — о том, покрываю я или нет голову в жаркий день? Какое отношение это может иметь к моей работе в качестве руководителя?!» Впрочем, некоторые боссы с развитой психологической интуицией понимают, что психолог спрашивает про «панамку» неспроста. Руководители, предпочитающие планомерный стиль работы (на основе четко определенных функций и плановых заданий), будут в таком случае стараться отвечать утвердительно на этот вопрос (даже если «панамку» не носят).

На самом деле в тестологии разработаны вполне объективные, независимые от исследователя, экспериментально-статистические процедуры проверки ключа к тесту. Они обеспечивают объективность — наличие связи, существующей вне желаний авторов и пользователей теста, между ответами и определенными свойствами испытуемых.

Профессиональный разработчик научного теста следует особому технологическому алгоритму. Этот алгоритм известен и другим специалистам — его коллегам, поэтому они всегда могут проверить обоснованность «авторского» ключа к тесту. При серьезном обучении психологическому тестированию студенты должны научиться применять этот алгоритм, для того чтобы понимать смысл этого алгоритма на «операциональном уровне» — на уровне конкретных действий с конкретным ключом к конкретному тесту. Так, в частности, организованы занятия по основам психодиагностики на факультете психологии МГУ, которым много лет руководит автор этих строк.

ЗЫБКОСТЬ ПСИХОЛОГИЧЕСКОЙ ПОЧВЫ

Внешнее сходство измерительных, профессионально изготовленных тестов с развлекательными вызывает у многих сомнение в том, что за «смешными вопросиками» скрывается какая-то серьезная наука. Казалось бы, чего проще: взять и придумать набор вопросов с предполагаемыми вариантами ответов типа «да/нет» («верно/неверно»). Каждый вариант ответа нужно просто «привязать» к измеряемому свойству психики с помощью «ключа» и... тест готов! Бери и применяй. Подсчет баллов в таком случае сводится, как правило, к суммированию всех ответов «верно» (ключ «+») и всех ответов «неверно» (ключ «–»). Так получается тестовый балл — число, указывающее положение испытуемого на шкале измеряемого свойства.

Чем нелепей связь между содержанием ответа и измеряемого свойства, тем веселее развлекательный тест. Спросим, например, про ваше отношение к серьгам в ушах у молодых мужчин, а вывод сделаем весьма смелый и радикальный — об уровне «скрытого гомосексуализма». Очень весело! Некоторые выводы по результатам «салонных» тестов звучат не менее остро, чем серьезный медицинский диагноз, а это может привести человека к так называемым ятрогениям — внушенным заболеваниям невротического происхождения.

Итак, у большинства читателей есть полная уверенность (я это знаю точно) в том, что связь между «серьгой» и «гомосексуализмом» есть результат авторского произвола. Этот результат обоснован в лучшем случае наблюдательностью автора. Но всегда найдется масса возражений. Например, почему серьга? Разве это признак женственности (как говорят психологи — «феминности»)? Ведь серьгу вдевают в уши и весьма «крутые» парни. Они, может быть, смотрели в детстве фильмы про пиратов и индейцев. Короче, имеется возможность истолковать симптом и так и эдак. В этом проявляются субъективизм и произвол, на которых строятся развлекательные тесты.

ПЯТНА НА СОЛНЦЕ И СКЛОННОСТЬ К АЛКОГОЛИЗМУ

В чем суть алгоритма конструирования научных тестов?

По поводу ключа к каждому вопросу выдвигается статистическая гипотеза. Она затем обязательно проверяется экспериментально на большой выборке испытуемых. Тут применяется точно такая же логика, как и во всех других экспериментальных науках.

Рассмотрим, например, гипотезу — «пятна на солнце есть предвестник магнитных бурь». Как можно действовать для проверки этой гипотезы? Начнем составлять протокол из двух взаимосвязанных рядов наблюдений: в каждой паре клеток этого протокола, соответствующей одному дню, регистрируем информацию о количестве пятен и нестабильности магнитного поля. А затем вычисляем коэффициент статистической корреляции (как это делается, любознательные найдут в любом учебнике по статистике). Высокие значения этого коэффициента указывают на то, что связь существует, то есть количество дней, когда закономерность нарушается, гораздо меньше количества дней, когда закономерность подтверждается.

Ключ к научным тестам — результат выявленной экспериментальным путем статистически значимой зависимости между ответом на конкретный вопрос и реальными событиями и фактами из жизни испытуемого.

Вот, например, вопрос-утверждение из теста на «склонность к алкоголизму»: «Когда я смотрю на вкусную и красиво приготовленную еду, я думаю, что это прежде всего отличная закуска». Как мы проверяем, что ответ «верно» является «ключевым», или сигнальным, по отношению к склонности к алкоголизму? Мы сравниваем между собой частоту появления в эксперименте двух случаев.

1) Отвечающий «верно» имеет обращения за медицинской помощью по поводу чрезмерного употребления алкоголя (объективный факт, зарегистрированный в медицинской карте).

2) Отвечающий «неверно» тоже имеет такие обращения.

Если первые случаи у нас в эксперименте наблюдаются значимо чаще, чем вторые (в статистике разработаны четкие количественные критерии того, что значит «значимо чаще»), то мы считаем данный вопрос «работающим» — выявляющим неслучайный симптом (в данном случае «алкоголизма»).

РАБОТА ПО-ЧЕРНОМУ

В ходе психометрического эксперимента нужно не только предложить выполнить тест большому числу людей (минимум 50–60 человек), но и собрать каким-то образом объективную информацию о них (о том факторе или психическом свойстве, которые мы хотим измерить). Эта задача трудна не только методически, но и организационно.

Подчеркнем, что статистический анализ ключа следует производить для каждого (!) тестового задания, включенного в пилотную версию теста. Сейчас такой анализ выполняют на компьютере, но от этого процесс создания теста не становится автоматическим — ведь компьютеры сами по себе не придумывают заданий. Нормальный отсев непригодных заданий — от 60 до 80 процентов. Это приводит к тому, что после отсева остается так мало хороших заданий (ключ к которым обоснован), что приходится создавать новые тестовые задания и проверять их еще в одном психометрическом эксперименте.

Так что проверка ключа к тесту — весьма и весьма трудоемкий процесс. Но без этого невозможно создать ни одного измерительного (экспериментально обоснованного) теста.

Такая научная кухня являет собой нечто совершенно противоположное той легкости и легковесности, с которой у нас привычно ассоциируются «салонные» тесты. Это ведь просто пародия на научные тесты, хотя и имеет их некоторые черты — прежде всего необъяснимую для обыденного сознания связь между вопросом-симптомом и выводом. Действительно, самые ценные вопросы и в научных тестах тем и хороши, что испытуемый не может понять, что на деле означает данный симптом.

Схема эксперимента в случае использования проективных методик еще более сложная и трудоемкая. Здесь недостаточно привлечь многочисленную выборку испытуемых. Нужны еще как минимум десять независимых экспертов-интерпретаторов. Последние должны работать с материалами проективных тестов (рисунками, рассказами, записанными на аудиокассету) по методу независимых судей: эксперты строго независимо друг от друга выносят (в баллах) оценку тому, насколько вероятен тот или иной диагноз (тот или иной промежуточный показатель). Только если мы добились статистически значимой согласованности в работе независимых экспертов, мы можем делать осторожный вывод о том, что приблизились к созданию научно обоснованной проективной методики.

АБСОЛЮТНЫХ ГАРАНТИЙ НЕТ

Любые тесты (в том числе самые серьезные научные) обладают не абсолютной, а только вероятностной надежностью. Необходимо понимать, что есть ограничение, которое накладывается на тесты, разработанные с помощью статистического подхода: они верно работают в отношении большинства людей, но могут давать ошибки в частных случаях. Это ограничение нельзя обойти, даже если в разработке теста участвует современная мощная компьютерная технология.

Раньше на разработку теста уходили годы. Теперь за месяцы и даже за недели можно собрать на компьютере ответы сотен испытуемых на сотни вопросов «пилотной версии» теста. При этом если тестирование производится в режиме диалога с компьютером (как в лаборатории компьютерной психодиагностики в МГУ, которую автор возглавляет), то экономится время и при размножении тестовых брошюр и бланков, и при вводе данных в компьютер оператором. Сегодня Интернет позволяет буквально за один-два дня опрашивать сотни и даже тысячи его пользователей.

После сбора протоколов запускается упомянутый выше статистический алгоритм анализа вопросов (в нашей лаборатории разработана специализированная программа для таких целей — ТЕСТАН, или ТЕСТовый АНализатор). И вот из сотен вопросов выделены десятки тех, которые надежно дифференцируют, например, алкоголиков и трезвенников или шоферов-лихачей и осторожных водителей.

Но и этот мощный современный инструмент конструирования тестов не гарантирует от ошибок в отдельных случаях. Для того чтобы избежать их, мало иметь компьютер и тестовую программу к нему. Обязательно нужен еще и опытный психолог, контролирующий выполнение теста. Так что наличие тестов, прошедших серьезную психометрическую адаптацию, вовсе не отменяет функций опытного психолога, призванного проверять правдоподобность тестовых результатов с использованием параллельных источников информации (включая собственное наблюдение, беседу и т.п.).

Александр ШМЕЛЕВ,
доктор психологических наук,
профессор МГУ