Una reciente discusión
en un zoo americano y en la lista Aquarium (una lista específica
de entrenadores de animales) llamó mi atención y me
puse a escribir sobre lo que parecía uno de los tópicos
de discusión habituales entre muchos entrenadores que utilizan
el puenteo (bridge)(2).
La discusión surgió como una simple pregunta de otro
miembro de la lista sobre si era apropiado o no el uso de un puenteo
sin que fuese seguido de una “recompensa” (bien comida
o cualquier otro reforzador fundamental). Respondí rápidamente
que cualquier emparejamiento menor de 1:1 debilitaría el
valor reforzante de ese puenteo, y haría que el animal se
dedicase a descansar. Pero pasó una cosa extraña.
Al seguir leyendo algunos de los correos, otros miembros de la lista
adoptaron una postura opuesta, es decir, que era correcto presentar
un clic y no dar una recompensa, y que ese clic podría incluso
fortalecer el puenteo. Pasmado por la discusión y los argumentos
a favor y en contra, decidí recoger datos e intentar una
revisión sobre la manera más apropiada de aplicar
clic, con o sin recompensa. Lo que sigue es el resultado de esa
búsqueda.
Operantes
y Respondientes: La doble hélice de la conducta
Es importante entender en cualquier proceso conductual, especialmente
en aquellos implicados en los métodos de entregamiento de
puenteo, el doble papel que juegan los métodos de condicionamiento
respondiente y operante. La mayoría de los conductistas reconocen
la importancia de ambos procesos en la conducta, y muchos más
reconocen la práctica imposibilidad de ubicar un conjunto
de respuestas como respondientes u operantes exclusivamente. Nuestros
métodos de entrenamiento no son diferentes, se use puenteo
o no. Sin embargo, dado el tema de este artículo, me centraré
en el uso de un puenteo (específicamente un sonador o “clicker”,
aunque podría tratarse de cualquier otro puenteo) y el proceso
dual que ello implica.
Como bien sabemos todos aquellos que utilizamos el puenteo, uno
debe unir primero el sonido de un sonador (clic) con algún
reforzador, para que funcione como un reforzador condicionado (un
proceso de sobra conocido en laboratorio como “entrenamiento
de libro”). Sin embargo, esto puede entenderse mejor como
un proceso de condicionamiento respondiente. Al igual que Pavlov
condicionó el tono de una campana junto con comida para evocar
una respuesta condicionada, también nosotros unimos el sonido
de un sonador (clic) como un estímulo condicionado (EC) con
algún estímulo incondicionado (EI), generalmente comida.
Este emparejamiento continuo durante nuestros programas de entrenamiento,
entre el clic del sonador y la comida, podría entenderse
también a través de un proceso respondiente. Incluso
aunque ahora estamos utilizando los clic como reforzadores condicionados
(Rf-C), el proceso respondiente sigue funcionando.
El trabajo de Pavlov reveló también dos descubrimientos
fundamentales sobre el entrenamiento de puenteo: la distancia temporal
entre la presentación de un EI y un EC; y la ocurrencia o
no de EI seguido de EC (Pavlov, 1928). Pavlov encontró que
era muy importante la distancia entre la presentación del
EI y el EC. Cuanto más se distanciaran en el tiempo, menores
eran los efectos del EC. Además, Pavlov también encontró
que cada presentación del EC sin que fuese seguido de EI
debilitaba los efectos del EC.
Extinción
y falta de efectividad del reforzador condicionado
Investigadores posteriores también han examinado la importancia
del emparejamiento EC-EI y su distancia temporal, así como
los efectos del reforzamiento condicionado basados en ese emparejamiento.
El modelo Rescorla-Wagner (Rescorla y Wagner, 1972) nos da una curva
de extinción, donde se demuestra gráficamente el debilitamiento
del EC a lo largo de tiempo, cuando no se une a un EI.
Otros investigadores han examinado los efectos reforzantes de un
reforzador condicionado según su emparejamiento anterior
con un EI o un reforzador primario. De nuevo, los resultados fueron
como los que Pavlov había demostrado hace un siglo, cuanta
más demora temporal entre EC y EI, menores son los efectos
del EC (Fantino, 1977).
¿Pero cuáles son los efectos reforzantes reales de
un EC?, ¿Necesariamente un EC débil significa también
un reforzador condicionado débil? Egger y Miller (1962) examinaron
precisamente esta cuestión. Condicionaron ratas emparejando
dos estímulos diferentes (E1 y E2) con comida en dos programas
diferentes. Un estímulo (E1) era seguido siempre por un EI
(una relación 1:1 en el emparejamiento entre EC-EI, o entre
clic y recompensa). El otro estímulo (E2) sólo ocasionalmente
era seguido por un EI, y por tanto no había una relación
1:1 en este emparejamiento. Después examinaron los efectos
como reforzadores condicionados de cada estímulo sobre una
respuesta de presionar una palanca. El estímulo que se presentaba
por sí solo ocasionalmente (E2, sin emparejamiento 1:1) no
llegó a ser un reforzador efectivo, mientras que el otro
estímulo (E1, con emparejamiento 1:1) sí que lo fue.
Aunque este estudio se llevó a cabo para evaluar la posibilidad
de que un estímulo proporcione información sobre la
aparición de un reforzador primario (es decir, la posibilidad
de que funcione como un “marcador”), no obstante deberían
tenerse en cuenta estos datos sobre el tema que tratamos. En el
mejor de los casos, cualquier relación menor de 1:1 entre
el clic y la recompensa producirá un reforzador condicionado
más débil que una relación directa 1:1.
Más
allá de los datos
Ahora que hemos examinado la historia basada en datos, ¿cuáles
son los argumentos contra el uso de 1:1 en el emparejamiento entre
clic y recompensa? He aquí algunos de esos comentarios, intereses
y argumentos sobre esta idea…
¿Qué
hay de los programas RV?
Como demostró el mismo Skinner, los programas de reforzamiento
de razón variable (RV) son muy efectivos, incluso más
que los programas de razón fija (RF) (Skinner, 1938). Sin
embargo, hacer un clic en cada respuesta pero sin darle comida al
animal NO es un programa RV. Aquí aún se está
presentando un reforzador en cada ocurrencia de la respuesta, independientemente
de que se trate de un reforzador primario o condicionado. Sin embargo,
lo que se está haciendo es debilitando los efectos reforzantes
del reforzador condicionado, puesto que no se está uniendo
cada clic junto con la comida. Esto sigue siendo un programa de
reforzamiento continuo (RFC). La única forma de que fuese
un programa RV sería si los clic no funcionasen como reforzadores,
lo que a todas luces sería un sinsentido. Para reforzar de
forma efectiva e intermitentemente las respuestas según un
programa RV, o cualquier otro, se habría de conseguir que
ocurriera más de una respuesta seguida, después el
clic, y finalmente la “recompensa” tras cada clic.
El clic o
la recompensa ocasionales
El proceso de condicionamiento
respondiente descrito anteriormente es relevante no sólo
en los emparejamientos iniciales de los clic con las recompensas,
sino que es un proceso en marcha. Aunque una historia extensa de
emparejamiento clic-recompensa fortalecería los efectos de
los clic como reforzador condicionado, de ninguna forma haría
que los clic fueran irrevocables. En cualquier momento durante el
entrenamiento, existe la amenaza de extinción de la respuesta
debido a la pérdida de emparejamientos clic-recompensa. Cada
clic que no sea seguido con una recompensa conlleva este proceso
de extinción, se quiera o no. Podría ser mínimo,
pero ya se está debilitando ese puenteo.
¡Demasiada
comida!
He oído comentar a algunos entrenadores que no es posible
dar tantas “recompensas” como clic. El argumento es
simple: “¡ No puedo dar tanta comida al animal !”.
La respuesta es bien simple: “Entonces no lo hagas”.
Yo utilizo “recompensas” entre comillas por una razón.
Las recompensas no necesariamente significan comida. Simplemente
se refieren a cualquier estímulo que funcione como un reforzador
para un organismo, sea primario o secundario. Ello puede incluir
jugar con mascotas, dar abrazos, cubitos de hielo, juegos, coger
pelotas, escapar del “trabajo”, etc. Unir un gran número
de reforzadores con el puenteo no es la única opción,
es lo ideal. Mientras que un clic emparejado con un solo reforzador
simplemente es un reforzador condicionado, un clic emparejado con
numerosos reforzadores llega a ser un reforzador condicionado generalizado.
Los reforzadores generalizados son más resistentes, tanto
a la saciación como a la extinción. Lo único
importante a recordar es que cada cosa emparejada con los clic,
de hecho, debería ser un reforzador o ser reforzante por
sí misma.
Encadénelos
Muchos entrenadores utilizan programas de reforzamiento encadenados.
Algunos entrenadores insisten además en que simplemente están
utilizado un puenteo como un “marcador” para algunas
respuestas y como reforzador condicionado para otras. Por ejemplo,
utiliza un clic sin “recompensa” para que un perro corra
a través de un túnel (primera respuesta), utiliza
el mismo clic sin “recompensa” por subir por una escalera
(segunda respuesta), y finalmente también utiliza el mismo
clic de nuevo sin “recompensa” por quedarse quiero en
una posición (tercera respuesta). Sin embargo, en todas las
situaciones está presentando un clic sin recompensa, y el
animal que está entrenando quizás sea más olvidadizo
de lo que usted espera.
Hay una distinción importante entre un programa de reforzamiento
en cadena, donde se utilizan diferentes estímulos como discriminativos
para cada respuesta (Ed/Rf), y un programa en tandem donde se utilizan
las mismas relaciones Ed/Rf. Aunque a menudo en los programas en
tandem se utilizan luces como estímulos que no cambian, podría
considerarse como un equivalente funcional el hecho de utilizar
el mismo clic para diferentes respuestas en una cadena sin reforzar.
Aunque la distinción parece complicada, los ejemplos anteriores
pueden mostrar esa diferencia. En el caso original, cuando el perro
recibía el mismo clic con o sin comida por cada respuesta,
el entrenador está utilizando un programa en tandem. Sin
embargo, si el entrenador utilizase un puenteo o indicador diferente
para las dos respuestas previas, y sólo un puenteo seguido
de una recompensa para la respuesta final, estaría utilizando
un programa encadenado.
Para todos aquellos que insisten en utilizar marcadores, la solución
es bien simple. Utilice diferentes estímulos como marcadores.
Al hacerlo así, está estableciendo de forma más
segura un programa en cadena. Los estímulos como marcadores
no tienen que ser emparejados directamente con un reforzador, y
puede reservar el clic seguido de recompensa sólo para la
respuesta final. Sin embargo, aún no está comprobado
si es más o menos beneficioso el no utilizar uniones específicas
Ed/Rf para las respuestas que no son las finales. La terminación
de una respuesta (p.ej., el perro que llega al final del túnel)
funcionará como un reforzador condicionado (Rf) para esa
respuesta, así como un estímulo discriminativo (Ed)
para la siguiente respuesta, sin necesidad de un puenteo o marcadores
adicionales. No se pueden dar indicaciones concretas sobre los beneficios
o perjuicios derivados de utilizar marcadores específicos
en el entrenamiento, hasta que se lleve a cabo este tipo de investigación
aplicada.
El blues de
la torre de marfil
Un posible argumento contra cualquier apoyo empírico para
utilizar un método de emparejamiento 1:1 entre clic y recompensa,
es que está basado estrictamente en estudios de laboratorio.
Este tipo de argumentos se han aducido a veces contra la comunidad
científica, especialmente dentro de las ciencias de la conducta.
Se proclama que esos datos son demasiado “básicos”,
y por tanto no son relevantes en el campo aplicado.
Un aspecto acertado de este argumento es que en el entrenamiento
de animales, el área aplicada es drásticamente diferente
del laboratorio. Los animales con los que trabajamos están
muy alejados de las ratas o las palomas, y las conductas que entrenamos
son drásticamente diferentes de las de presionar una palanca
o picar una tecla, y aún no he visto a ningún entrenador
de animales en una situación que se parezca en lo más
mínimo a una caja de Skinner. Nuestra área aplicada
es diferente, y algo que necesita es su propia investigación
aplicada. El entrenamiento de animales puede llevar a nuevos descubrimientos
y nuevos fenómenos que aún no se han abarcado en la
investigación básica.
Sin embargo, de poco puede servir esta justificación en este
tema en particular. El emparejamiento clic-recompensa está
relacionado directamente con los conceptos básicos descubiertos
en laboratorio. Además, todos los datos que conozco hasta
la fecha son para apoyar el método de emparejamiento 1:1
entre clic y recompensa. Aunque la investigación aplicada
sobre este tema pueda resultar beneficiosa (como pasa generalmente
en cualquier ciencia), hasta el presente no hay evidencia que apoye
el concepto de que un emparejamiento menor de 1:1 sea tan efectivo
como un emparejamiento clic-recompensa 1:1.
Es suficiente...
Incluso con todo lo dicho hasta aquí, muchos se mantienen
en que un puenteo débil sigue siendo “suficiente”.
No se necesita necesariamente el reforzador más poderoso
para el entrenamiento de una respuesta específica. Incluso
con un puenteo considerablemente débil, se podrían
conseguir las respuestas objetivo deseadas.
Aún así, ésta es una posición peligrosa
para cualquier entrenador que base sus decisiones en ella, y puede
quedarse colgado en cualquier labor que escoja para realizar. Imagine
que se ve obligado a conducir por las montañas en medio de
una ventisca. Ahora imagine que se le da la oportunidad de elegir
conducir un 4x4 Chevy o un Pinto. El Pinto podría ser “suficiente”
para subir y bajar la montaña, !pero el Chevy probablemente
sea una apuesta mucho más segura¡. No debería
considerar los clic de forma muy diferente, especialmente si tiene
en cuenta lo similares que son ambos métodos en términos
de tiempo, esfuerzo y dinero.
Entrenar santificando
las fiestas
Las elecciones que tenemos sobre cómo realizar un entrenamiento
pueden parecer interminables, pero algunas cuestiones piden soluciones
simples. Creo que en esta área ocurre justamente eso: algo
con una solución bien simple. Permítame simplificarlo
si todavía no ha llegado a enterarse, un emparejamiento cualquiera
menor de 1:1 debilitará su puenteo. Es así de simple.
Aunque la ciencia no crea reglas seguras y rápidas, Pavlov,
Skinner, y sus colegas, han resistido la prueba del tiempo sobre
este tema durante un siglo. Cuando intente emparejar una “recompensa”
con un puenteo, haga que siempre inmediatamente después del
puenteo le siga una “recompensa” tan rápido como
sea posible. Probablemente, nuestra investigación futura
en el campo aplicado también puenteará el espacio
que hay entre la investigación básica y los fenómenos
aplicados. Hasta que eso ocurra, nuestra conducta debería
estar guiada por la investigación básica, y mantener
un ojo avizor sobre las áreas que exigen mayor investigación
futura.
Todos conocemos que los métodos de entrenamiento, en su mayor
parte, están basados en unos principios conductuales simples.
También todos sabemos que, a pesar de eso, el entrenamiento
puede llegar a resultar infinitamente complejo. Por consiguiente,
si no tiene otra excusa, coja el plan más simple. La parsimonia
es la mejor virtud en cualquier ciencia, y puede ser algo tan pequeño
como “haga X después de Y”, es decir, emparejamiento
1:1.
REFERENCIAS
- Egger, M.D., and
Miller, N.E. (1962). Secondary reinforcement in rats as a function
of information value and reliability of the stimulus. Journal
of Experimental Psychology, 64, 97-104.
- Fantino, E. (1977).
Conditioned reinforcement: Choice and information. In W.K. Honig
& J.E.R. Staddon (Eds.), Handbook of operant behavior (pp.
313-339). Englewood Cliffs, NJ: Prentice-Hall
- Pavlov, I.P. (1928).
Lectures on conditioned reflexes. New York: International Publishers.
- Rescorla, R.A.,
and Wagner, A.R. (1972). A theory of Pavlovian conditioning: Variations
in the effectiveness of reinforcement and nonreinforcement. In
A.H. Black & W.F. Prokasy (Eds.), Classical conditioning II:
Current research and theory (pp.64-69). New York: Appleton-Century-Crofts.
- Skinner, B.F.
(1938). The behavior of organisms. New York: Appleton-Century-Crofts.
Eduardo J.
Fernández, se graduó como M.S. en Behavior
Analysis por la Universidad de North Texas (USA), donde fue co-fundador
y presidente de la “Organization for Reinforcement Contingencies
with Animals” (ORCA). Eduardo lleva la lista de discusión
Animal Reinforcement Forum (ARF) listserv, que se dedica a la discusión
en grupo sobre el entrenamiento de animales y la conducta desde
un punto de vista científico, y también es el director
del programa de la “Association for Behavior Analysis's Special
Interest Group” y el “Animal Trainer's Forum”.
Actualmente está trabajado en su doctorado sobre Psicología
y Ciencias Neuronales y Conducta Animal en la Universidad de Indiana
en Bloomington (USA). Pasa la mayor parte de su tiempo investigando
sobre condicionamiento operante y respondiente en laboratorio y
en el zoo de Indianapolis (USA).
Eduardo J. Fernández
Department of Psychology
Center for the Integrative Study of Animal Behavior
Indiana University
Email: eduferna@indiana.edu
(1)
Traducido y publicado con permiso expreso del autor para: Contextos
(www.conducta.org)
(2)
Nota del traductor
Se ha traducido el término “bridge” como puenteo
y puentear, que son términos aceptados en castellano, aunque
en el campo de la electrónica (p.ej. puentear un circuito
o puentear el encendido de un coche). En este caso, el concepto
es similar: puentear o unir un sonido con un reforzador primario.
También se ha utilizado el término “clic”
aceptado como sonido onomatopéyico, y “sonador”
como cualquier aparato para hacer sonido (conocido como “ranita”),
ambos aceptados por la RAE.
Inicio