Как действует положительное подкрепление

В первую очередь мы по большому счету должны забыть об упражнениях. Все, что нас интересует для начала — это первый ход в нужном направлении. Представим себе, к примеру, что мы желаем научить касатку выпрыгивать из воды. Мы даем свисток (команду) и ожидаем. После этого ожидаем еще мало, а обычно не редкость, что ожидаем еще и еще. Разумеется, сперва касатка не имеет представления о том, что от нее требуется, в то время, когда звучит свисток. Исходя из этого нам приходится ожидать, дабы она зачем-нибудь высунула шнобель из воды. Совершенно верно в данный миг мы опять свистим в свисток и даем ей рыбу. В то время, когда она проплывает внизу, мы опять свистим и ожидаем. Процедура повторяется , пока касатка не выйдет на уровень «ага!»: «Ага! В то время, когда я слышу звук свистка, я приобретаю рыбу». Данный уровень понимания — уровень «ага!» — не имеет возможности принимать во внимание закрепленным, до тех пор вы не добьетесь, дабы происходило десять из десяти вероятных немедленных реакций на свисток. До тех пор пока это не достигнуто, не нужно переходить к следующему этапу учения.

На первом ее этапе думается, что прогресс не весьма заметен, но для успеха обучения очень принципиально важно, дабы любой этап заканчивался достижением уровня полного понимания. Если вы этого добьетесь, то найдёте, что, по мере перехода к каждому следующему этапу превращение начальной реакции в распознаваемую цепочку перемещений идет весьма скоро. Сейчас мы подходим к этапу учения, что именуется «формирование». Нам необходимо заменить уже сложившуюся цепочку: «свисток — появление носа — необходимая рыбка», новой цепочкой: «свисток — касатка выпрыгивает из воды — рыбка дается время от времени». Достигается это следующим образом. Формирование поведения свидетельствует, что мы делаем один мелкий ход в нужном направлении и продвигаемся к конечной цели, подкрепляя любой сделанный ход. Так мы снабжаем абсолютное исполнение данной части цепочки, перед тем как двигаться дальше.

Тут отмечается увлекательное явление: исполнение определенных действий, надежно затренированное посредством вознаграждения, возможно сделать еще более четким, в случае если вознаграждение задерживать. Предположим, затренирована такая реакция касатки: на десять свистков она десять раз срочно высовывает шнобель из воды. На одиннадцатый раз говорим: «Плохо, рыбы ты не возьмёшь». Возможно высказать предположение, что сейчас касатка поразмыслит: «Но я постоянно получаю рыбку. Возможно, кто-то ее стащил раньше меня. В следующий раз нужно живее пошевеливаться». И на двенадцатый раз вы получите более стремительную и энергичную реакцию касатки: она высунет из воды всю голову полностью. За это непременно надеется рыбка, но сейчас и в будущем — лишь за это.

Дальше будем вырабатывать цепочку: «свисток — появление из воды всей головы полностью — при немедленной реакции рыбка в приз в десяти случаях из десяти». Только после этого возможно будет перейти к следующему этапу. Думается, что обучаемый с каждым этапом все скорее осознаёт, что от него требуется и появляется эффект снежного кома.

Я намеренно воспользовался примером касатки дабы выделить основное: целый процесс обучения может осуществляться без какого-либо физического действия. Сперва мы ожидаем верного шага в нужном направлении и вознаграждаем его, после этого закрепляем и придаем законченную форму.

Хозяин: «Какая отличие между подкупом и всем этим?» Я: «Подкуп — это применение приза в качестве соблазна, чтобы стимулировать перемещение. Подкрепление — это вознаграждение, приобретаемое за необязательное перемещение». Хозяин: «Неизменно ли давать приз?» Я: «Прием действует лучше, если вы даете приз не всегда. В то время, когда модель поведения организована, лишь самая стремительная, четко выраженная и сильная реакция вознаграждается. Время от времени ученику нужно будет выполнить отработанную цепочку шесть либо семь раз, перед тем как последует вознаграждение». Хозяин: «В обязательном порядке ли давать в приз что-то съедобное?» Я: «Призом возможно что-то второе, для чего, с позиций ученика, стоит делать определенные действия. Было бы бессмысленно пробовать организовать мое поведение посредством тарелки капусты, в случае если я терпеть не могу капусту!