Что считать измерением?

(из цикла «Критерии научности в тестологии»)

чем отличаются научные тесты, опирающиеся на научную теорию и методологию, от самодельных тестов?

Мало просто перечислить и дать абстрактные определения таким свойствам научного теста, как «надежность», «валидность», «репрезентативность», «достоверность». Нужно, чтобы читатель был убежден — тесты, обладающие такими свойствами, необходимы. Вот почему в данной статье мы будем говорить с известной долей избыточности только об одном из множества критериев научной тестологии — о статистической обоснованности тестовых норм (о «репрезентативности» тестовых шкал).

 

НУЖНЫ СПЕЦИАЛЬНЫЕ ПРИБОРЫ

Чтобы разобраться в основных понятиях тестологии, давайте использовать примеры из области физических измерений. Они, как правило, наглядны, понятны, имеют многовековую историю и поэтому хорошо разработаны. (Кстати, с точки зрения науковедения, тестологию — науку о тестовых измерениях — следует несомненно считать частью более общей науки об измерениях — метрологии.)

В разных областях науки и техники измерительная процедура зримо отличается от соответствующих бытовых аналогов (читай — самодельных тестов) наличием определенного специального оборудования. Конечно, мы можем взвешивать связку бананов просто на руке, но для точного измерения веса и точного расчета с продавцом предпочитаем весы и гирьки заводского производства. Эти измерительные «принадлежности» гарантируют точность благодаря тому, что соответствуют определенным стандартным требованиям: они выверены по эталонам, которые хранятся у серьезного производителя (никак не заинтересованного в показаниях весов при продаже бананов).

В психологии и тестологии также используются аппаратурные методики. Но их немного, они недешевы, неудобны в транспортировке, требуют специальных навыков от пользователей. В последнее время их все чаще заменяют программы для персональных компьютеров.

 

СОБЛАЗН ВНЕШНЕГО ВИДА

Самодельные тесты мы встречаем на каждом шагу. Например, к числу самодельных, несомненно, относится подавляющее большинство развлекательных тестов. Они требуют от автора лишь раскрепощенного остроумия, а от читателя-испытуемого — чувства юмора и готовности к самоиронии.

В психологии огромную популярность получили тесты-опросники: испытуемый отмечает на специальном бланке (или помечает мышкой на экране компьютера) стандартные ответы на набор стандартных вопросов. Одна из причин популярности — легкость распространения, применения и обработки результатов (хотя не менее важна возможность «словесного моделирования» разнообразных ситуаций, которые невозможно воссоздать в лабораторных условиях).

И вот здесь — как раз в случае с опросниками — грань между журнальными развлекательными и профессионально изготовленными тестами оказывается опасно размытой. Дилетанты вообще могут ее не заметить, так как судят о тесте только по внешнему виду: и там и здесь они находят словесные задания с вариантами ответов, ключ и числовые границы (нормы) для вынесения заключений.

Появление высококачественных принтеров создает дополнительный соблазн для всякого, кто научился печатать на компьютере, придумать опросник и напечатать его так же красиво, как это может сделать научный работник в своей лаборатории (или редактор того или иного издания).

 

АВТОРСКИЕ САМОДЕЛКИ

На базе новой издательской техники, новых компьютерных технологий для создания опросников тесты появляются как грибы после дождя. Авторы искренне уверены, что их творения «ничем не хуже других», рассуждая при этом так: «Если давать по очку за правильный ответ и ноль — за ошибку, то при наличии двадцати заданий в тесте я могу ввести граничный балл (норматив), равный 18, просто исходя из моих представлений о том, что 90 процентов правильных ответов — надежный уровень освоения определенных знаний (умений, навыков, развития способностей)». Если среди пользователей не находится ни одного, кто мог бы усомниться: «А почему, собственно, граничный балл должен быть равен 18?», то такой тест начинает успешно распространяться и применяться.

В тестологии для таких тестов (сверстанных автором «на глазок») уже практически закрепилось название — «авторские тесты» (звучит, кстати, гораздо благозвучнее, чем «самоделка»). И в тестологии такие тесты не считаются «измерительными», ибо шкала, на которой базируются выводы по этим тестам, не прошла необходимую «калибровку» — стандартизацию относительно эталона.

Итак, подчеркнем главное — имеется существенное различие между «авторскими методиками», не прошедшими статистической апробации и стандартизации, и «измерительными методиками», прошедшими такую апробацию и стандартизацию.

 

КАЛИБРОВАННЫЙ СТАНДАРТ

После первичной апробации теста (на малой выборке испытуемых) его разработчик должен организовать выполнение этого теста большой представительной (репрезентативной) выборкой. Это делается для того, чтобы определить, как часто встречается тот или иной тестовый балл.

Если выясняется, что ту же самую, взятую для примера, границу 18 превосходит вовсе не большая часть подготовленных испытуемых, а меньшая, то данную границу можно считать завышенной, и первоначальный (авторский) норматив надо корректировать в сторону снижения.

Если же выясняется, что данную границу превосходят почти все, то норматив надо корректировать в сторону повышения. А если и повышать уже больше «некуда» (почти все набирают максимум — 20 баллов), то тест следует считать слишком легким и не выполняющим основного предназначения — различать испытуемых с разным уровнем подготовки (развития способностей).

Таким образом, если вы хотите использовать не «авторский», а измерительный тест, то должны в первую очередь поинтересоваться, кто, как и на какой выборке производил стандартизацию тестовых норм, сколько процентов испытуемых выполнили больше 90% заданий, сколько — 80%, сколько — 70% и т.д. Это и есть «калибровка тестовой шкалы».

Конечно, я привел упрощенное и схематическое описание этого процесса, пригодное лишь для понимания его смысла. Этого явно недостаточно. Чтобы выполнять самому такую «калибровку», надо читать специальную литературу по конструированию тестов.

 

СРЕДСТВО ДЛЯ ГИПОТЕЗЫ

Авторские методики полностью базируются на экспертной интуиции автора. Если это квалифицированный эксперт, то его методика может работать совсем неплохо. Но кто даст гарантии, что даже самый квалифицированный эксперт не ошибся при создании данного теста?

Если же подобный автор ведет практическую консультативно-педагогическую работу (то есть сам изготовитель весов торгует с их помощью), не возникает ли риск того, что автор невольно начнет манипулировать показаниями весов в угоду ситуации?

К числу «авторских тестов» относится любой «сырой перевод» зарубежного теста. Если даже за рубежом выполнен полный цикл самой широкой его стандартизации, то после перевода нельзя сразу же использовать зарубежные тестовые нормы, нужно получить их на отечественной репрезентативной выборке.

Авторские методики могут публиковаться в газете (достаточно желания автора и одобрения серьезных рецензентов), но их пользователи должны четко понимать, что выводы на основе этих методик можно делать сугубо гипотетические (предварительные). Наличие «очков, шкал и границ» не должно вводить пользователя в заблуждение.

Подобные методики удобно использовать как средство для ознакомления с испытуемым и его проблемой, как средство для начала диалога с ним, для стимулирования последующей беседы.

 

РАЗНОБОЙ РАЗНОВЕСОВ

Драматизм ситуации, которая в нынешнее время складывается в связи с неразличением «авторских» и «измерительных» тестов, можно пояснить, если провести такой мысленный эксперимент.

Представьте себе на несколько минут, что в области измерения веса мы откатились к эпохе... полупервобытного натурального хозяйства. Каждый продавец не только производит товар на продажу, но и изготавливает свои весы — растягивает пружину примитивного динамометра с помощью невесть откуда взятых гирек и наносит деления, соответствующие 1 кг, 2 кг, 3 кг.

Приходят покупатели на такой базар, взвешивают, сравнивают с тем, что получается у разных продавцов, — ни у кого показатели не сходятся, полный разнобой! Понятно, что в такой ситуации немало покупателей совершают ту же ошибку в умозаключении, что и некоторые школьные психологи: все динамометры бесполезны и все они ничего не стоят. Замусоренность нашего воображаемого базара фальшивыми весами дискредитирует ценность настоящих весов.

Точно так же замусоренность страниц печатных изданий разномастными и разнокалиберными авторскими тестами дискредитирует ценность настоящих измерительных тестовых методик.

 

ПЕЧАЛЬНЫЙ ПРОГНОЗ

Тут читатели могут возразить: никто не принижает ценность хороших тестов, просто у людей катастрофически не хватает денег на их приобретение в «отдельных коробочках», по отдельным персональным лицензионным соглашениям.

Помещение авторских и измерительных тестов в одну ценовую нишу (по способу их распространения) означает, что происходит экономическое удаление (если не сказать — выдавливание) отечественных измерительных тестов из арсенала нашей отечественной практической психологии.

Надо понимать, что таким образом наша страна превращается в колонию, вынужденную экспортировать невосполнимые богатства недр в обмен на интеллектуальные технологии. Последние к тому же покупаются втридорога. В нашей стране скоро не останется даже специалистов, способных самостоятельно произвести работу по стандартизации переводной версии западного теста, и эту деятельность надо будет оплачивать в твердой валюте.

Не умея отделять «зерна от плевел», ценить и инвестировать собственное интеллектуальное производство, мы неизбежно деградируем до уровня натурального хозяйства, превращаемся в интеллектуальную колонию — бескрайнюю целину, где грохот недоукомплектованных американских тракторов и комбайнов сливается со стоном батраков, надрывающихся в непосильном кустарном труде — выращивании и уборке отдельных колосков с помощью примитивных орудий в виде сохи, серпа и т.п.

В Минобразовании РФ не первый год идет обсуждение вопроса о создании федеральной системы тестирования. Но пока дело не идет дальше отдельных бумаг с прожектами, которые попадают в «долгий ящик» к чиновникам, занятым перманентной дележкой начальственных кресел.

В условиях, когда никакого бюджетного централизованного финансирования разработки тестов нет и не предвидится, практическим психологам нужно организовать цивилизованный рынок с горизонтальными связями между профессиональными разработчиками методик и профессиональными пользователями.

Профессиональные психологи должны знать о тестах больше, чем читатели развлекательных журналов. В следующий раз мы поговорим о том, как экспериментально проверяется ключ в измерительных тестах.

Александр ШМЕЛЕВ,
доктор психологических наук

TopList