Tu portal sobre Análisis de conducta, conductismo e interconductismo Última actualización: 05/10/2005
Página Inicial Contextos

 

CLIC O RECOMPENSA: UNO O DOS TRUCOS EN EL ZOO (1)

Clic o recompensa

Eduardo J. Fernandez eduferna@indiana.edu
Traducción: Luis Valero luis@conducta.org

 

Una reciente discusión en un zoo americano y en la lista Aquarium (una lista específica de entrenadores de animales) llamó mi atención y me puse a escribir sobre lo que parecía uno de los tópicos de discusión habituales entre muchos entrenadores que utilizan el puenteo (bridge)(2). La discusión surgió como una simple pregunta de otro miembro de la lista sobre si era apropiado o no el uso de un puenteo sin que fuese seguido de una “recompensa” (bien comida o cualquier otro reforzador fundamental). Respondí rápidamente que cualquier emparejamiento menor de 1:1 debilitaría el valor reforzante de ese puenteo, y haría que el animal se dedicase a descansar. Pero pasó una cosa extraña. Al seguir leyendo algunos de los correos, otros miembros de la lista adoptaron una postura opuesta, es decir, que era correcto presentar un clic y no dar una recompensa, y que ese clic podría incluso fortalecer el puenteo. Pasmado por la discusión y los argumentos a favor y en contra, decidí recoger datos e intentar una revisión sobre la manera más apropiada de aplicar clic, con o sin recompensa. Lo que sigue es el resultado de esa búsqueda.

Operantes y Respondientes: La doble hélice de la conducta

Es importante entender en cualquier proceso conductual, especialmente en aquellos implicados en los métodos de entregamiento de puenteo, el doble papel que juegan los métodos de condicionamiento respondiente y operante. La mayoría de los conductistas reconocen la importancia de ambos procesos en la conducta, y muchos más reconocen la práctica imposibilidad de ubicar un conjunto de respuestas como respondientes u operantes exclusivamente. Nuestros métodos de entrenamiento no son diferentes, se use puenteo o no. Sin embargo, dado el tema de este artículo, me centraré en el uso de un puenteo (específicamente un sonador o “clicker”, aunque podría tratarse de cualquier otro puenteo) y el proceso dual que ello implica.

Como bien sabemos todos aquellos que utilizamos el puenteo, uno debe unir primero el sonido de un sonador (clic) con algún reforzador, para que funcione como un reforzador condicionado (un proceso de sobra conocido en laboratorio como “entrenamiento de libro”). Sin embargo, esto puede entenderse mejor como un proceso de condicionamiento respondiente. Al igual que Pavlov condicionó el tono de una campana junto con comida para evocar una respuesta condicionada, también nosotros unimos el sonido de un sonador (clic) como un estímulo condicionado (EC) con algún estímulo incondicionado (EI), generalmente comida.

Este emparejamiento continuo durante nuestros programas de entrenamiento, entre el clic del sonador y la comida, podría entenderse también a través de un proceso respondiente. Incluso aunque ahora estamos utilizando los clic como reforzadores condicionados (Rf-C), el proceso respondiente sigue funcionando.

El trabajo de Pavlov reveló también dos descubrimientos fundamentales sobre el entrenamiento de puenteo: la distancia temporal entre la presentación de un EI y un EC; y la ocurrencia o no de EI seguido de EC (Pavlov, 1928). Pavlov encontró que era muy importante la distancia entre la presentación del EI y el EC. Cuanto más se distanciaran en el tiempo, menores eran los efectos del EC. Además, Pavlov también encontró que cada presentación del EC sin que fuese seguido de EI debilitaba los efectos del EC.

Extinción y falta de efectividad del reforzador condicionado

Investigadores posteriores también han examinado la importancia del emparejamiento EC-EI y su distancia temporal, así como los efectos del reforzamiento condicionado basados en ese emparejamiento. El modelo Rescorla-Wagner (Rescorla y Wagner, 1972) nos da una curva de extinción, donde se demuestra gráficamente el debilitamiento del EC a lo largo de tiempo, cuando no se une a un EI.

Otros investigadores han examinado los efectos reforzantes de un reforzador condicionado según su emparejamiento anterior con un EI o un reforzador primario. De nuevo, los resultados fueron como los que Pavlov había demostrado hace un siglo, cuanta más demora temporal entre EC y EI, menores son los efectos del EC (Fantino, 1977).

¿Pero cuáles son los efectos reforzantes reales de un EC?, ¿Necesariamente un EC débil significa también un reforzador condicionado débil? Egger y Miller (1962) examinaron precisamente esta cuestión. Condicionaron ratas emparejando dos estímulos diferentes (E1 y E2) con comida en dos programas diferentes. Un estímulo (E1) era seguido siempre por un EI (una relación 1:1 en el emparejamiento entre EC-EI, o entre clic y recompensa). El otro estímulo (E2) sólo ocasionalmente era seguido por un EI, y por tanto no había una relación 1:1 en este emparejamiento. Después examinaron los efectos como reforzadores condicionados de cada estímulo sobre una respuesta de presionar una palanca. El estímulo que se presentaba por sí solo ocasionalmente (E2, sin emparejamiento 1:1) no llegó a ser un reforzador efectivo, mientras que el otro estímulo (E1, con emparejamiento 1:1) sí que lo fue. Aunque este estudio se llevó a cabo para evaluar la posibilidad de que un estímulo proporcione información sobre la aparición de un reforzador primario (es decir, la posibilidad de que funcione como un “marcador”), no obstante deberían tenerse en cuenta estos datos sobre el tema que tratamos. En el mejor de los casos, cualquier relación menor de 1:1 entre el clic y la recompensa producirá un reforzador condicionado más débil que una relación directa 1:1.

Más allá de los datos

Ahora que hemos examinado la historia basada en datos, ¿cuáles son los argumentos contra el uso de 1:1 en el emparejamiento entre clic y recompensa? He aquí algunos de esos comentarios, intereses y argumentos sobre esta idea…

¿Qué hay de los programas RV?

Como demostró el mismo Skinner, los programas de reforzamiento de razón variable (RV) son muy efectivos, incluso más que los programas de razón fija (RF) (Skinner, 1938). Sin embargo, hacer un clic en cada respuesta pero sin darle comida al animal NO es un programa RV. Aquí aún se está presentando un reforzador en cada ocurrencia de la respuesta, independientemente de que se trate de un reforzador primario o condicionado. Sin embargo, lo que se está haciendo es debilitando los efectos reforzantes del reforzador condicionado, puesto que no se está uniendo cada clic junto con la comida. Esto sigue siendo un programa de reforzamiento continuo (RFC). La única forma de que fuese un programa RV sería si los clic no funcionasen como reforzadores, lo que a todas luces sería un sinsentido. Para reforzar de forma efectiva e intermitentemente las respuestas según un programa RV, o cualquier otro, se habría de conseguir que ocurriera más de una respuesta seguida, después el clic, y finalmente la “recompensa” tras cada clic.

El clic o la recompensa ocasionales

El proceso de condicionamiento respondiente descrito anteriormente es relevante no sólo en los emparejamientos iniciales de los clic con las recompensas, sino que es un proceso en marcha. Aunque una historia extensa de emparejamiento clic-recompensa fortalecería los efectos de los clic como reforzador condicionado, de ninguna forma haría que los clic fueran irrevocables. En cualquier momento durante el entrenamiento, existe la amenaza de extinción de la respuesta debido a la pérdida de emparejamientos clic-recompensa. Cada clic que no sea seguido con una recompensa conlleva este proceso de extinción, se quiera o no. Podría ser mínimo, pero ya se está debilitando ese puenteo.

¡Demasiada comida!

He oído comentar a algunos entrenadores que no es posible dar tantas “recompensas” como clic. El argumento es simple: “¡ No puedo dar tanta comida al animal !”. La respuesta es bien simple: “Entonces no lo hagas”. Yo utilizo “recompensas” entre comillas por una razón. Las recompensas no necesariamente significan comida. Simplemente se refieren a cualquier estímulo que funcione como un reforzador para un organismo, sea primario o secundario. Ello puede incluir jugar con mascotas, dar abrazos, cubitos de hielo, juegos, coger pelotas, escapar del “trabajo”, etc. Unir un gran número de reforzadores con el puenteo no es la única opción, es lo ideal. Mientras que un clic emparejado con un solo reforzador simplemente es un reforzador condicionado, un clic emparejado con numerosos reforzadores llega a ser un reforzador condicionado generalizado. Los reforzadores generalizados son más resistentes, tanto a la saciación como a la extinción. Lo único importante a recordar es que cada cosa emparejada con los clic, de hecho, debería ser un reforzador o ser reforzante por sí misma.

Encadénelos

Muchos entrenadores utilizan programas de reforzamiento encadenados. Algunos entrenadores insisten además en que simplemente están utilizado un puenteo como un “marcador” para algunas respuestas y como reforzador condicionado para otras. Por ejemplo, utiliza un clic sin “recompensa” para que un perro corra a través de un túnel (primera respuesta), utiliza el mismo clic sin “recompensa” por subir por una escalera (segunda respuesta), y finalmente también utiliza el mismo clic de nuevo sin “recompensa” por quedarse quiero en una posición (tercera respuesta). Sin embargo, en todas las situaciones está presentando un clic sin recompensa, y el animal que está entrenando quizás sea más olvidadizo de lo que usted espera.

Hay una distinción importante entre un programa de reforzamiento en cadena, donde se utilizan diferentes estímulos como discriminativos para cada respuesta (Ed/Rf), y un programa en tandem donde se utilizan las mismas relaciones Ed/Rf. Aunque a menudo en los programas en tandem se utilizan luces como estímulos que no cambian, podría considerarse como un equivalente funcional el hecho de utilizar el mismo clic para diferentes respuestas en una cadena sin reforzar.

Aunque la distinción parece complicada, los ejemplos anteriores pueden mostrar esa diferencia. En el caso original, cuando el perro recibía el mismo clic con o sin comida por cada respuesta, el entrenador está utilizando un programa en tandem. Sin embargo, si el entrenador utilizase un puenteo o indicador diferente para las dos respuestas previas, y sólo un puenteo seguido de una recompensa para la respuesta final, estaría utilizando un programa encadenado.

Para todos aquellos que insisten en utilizar marcadores, la solución es bien simple. Utilice diferentes estímulos como marcadores. Al hacerlo así, está estableciendo de forma más segura un programa en cadena. Los estímulos como marcadores no tienen que ser emparejados directamente con un reforzador, y puede reservar el clic seguido de recompensa sólo para la respuesta final. Sin embargo, aún no está comprobado si es más o menos beneficioso el no utilizar uniones específicas Ed/Rf para las respuestas que no son las finales. La terminación de una respuesta (p.ej., el perro que llega al final del túnel) funcionará como un reforzador condicionado (Rf) para esa respuesta, así como un estímulo discriminativo (Ed) para la siguiente respuesta, sin necesidad de un puenteo o marcadores adicionales. No se pueden dar indicaciones concretas sobre los beneficios o perjuicios derivados de utilizar marcadores específicos en el entrenamiento, hasta que se lleve a cabo este tipo de investigación aplicada.

El blues de la torre de marfil

Un posible argumento contra cualquier apoyo empírico para utilizar un método de emparejamiento 1:1 entre clic y recompensa, es que está basado estrictamente en estudios de laboratorio. Este tipo de argumentos se han aducido a veces contra la comunidad científica, especialmente dentro de las ciencias de la conducta. Se proclama que esos datos son demasiado “básicos”, y por tanto no son relevantes en el campo aplicado.

Un aspecto acertado de este argumento es que en el entrenamiento de animales, el área aplicada es drásticamente diferente del laboratorio. Los animales con los que trabajamos están muy alejados de las ratas o las palomas, y las conductas que entrenamos son drásticamente diferentes de las de presionar una palanca o picar una tecla, y aún no he visto a ningún entrenador de animales en una situación que se parezca en lo más mínimo a una caja de Skinner. Nuestra área aplicada es diferente, y algo que necesita es su propia investigación aplicada. El entrenamiento de animales puede llevar a nuevos descubrimientos y nuevos fenómenos que aún no se han abarcado en la investigación básica.

Sin embargo, de poco puede servir esta justificación en este tema en particular. El emparejamiento clic-recompensa está relacionado directamente con los conceptos básicos descubiertos en laboratorio. Además, todos los datos que conozco hasta la fecha son para apoyar el método de emparejamiento 1:1 entre clic y recompensa. Aunque la investigación aplicada sobre este tema pueda resultar beneficiosa (como pasa generalmente en cualquier ciencia), hasta el presente no hay evidencia que apoye el concepto de que un emparejamiento menor de 1:1 sea tan efectivo como un emparejamiento clic-recompensa 1:1.

Es suficiente...

Incluso con todo lo dicho hasta aquí, muchos se mantienen en que un puenteo débil sigue siendo “suficiente”. No se necesita necesariamente el reforzador más poderoso para el entrenamiento de una respuesta específica. Incluso con un puenteo considerablemente débil, se podrían conseguir las respuestas objetivo deseadas.

Aún así, ésta es una posición peligrosa para cualquier entrenador que base sus decisiones en ella, y puede quedarse colgado en cualquier labor que escoja para realizar. Imagine que se ve obligado a conducir por las montañas en medio de una ventisca. Ahora imagine que se le da la oportunidad de elegir conducir un 4x4 Chevy o un Pinto. El Pinto podría ser “suficiente” para subir y bajar la montaña, !pero el Chevy probablemente sea una apuesta mucho más segura¡. No debería considerar los clic de forma muy diferente, especialmente si tiene en cuenta lo similares que son ambos métodos en términos de tiempo, esfuerzo y dinero.

Entrenar santificando las fiestas

Las elecciones que tenemos sobre cómo realizar un entrenamiento pueden parecer interminables, pero algunas cuestiones piden soluciones simples. Creo que en esta área ocurre justamente eso: algo con una solución bien simple. Permítame simplificarlo si todavía no ha llegado a enterarse, un emparejamiento cualquiera menor de 1:1 debilitará su puenteo. Es así de simple.

Aunque la ciencia no crea reglas seguras y rápidas, Pavlov, Skinner, y sus colegas, han resistido la prueba del tiempo sobre este tema durante un siglo. Cuando intente emparejar una “recompensa” con un puenteo, haga que siempre inmediatamente después del puenteo le siga una “recompensa” tan rápido como sea posible. Probablemente, nuestra investigación futura en el campo aplicado también puenteará el espacio que hay entre la investigación básica y los fenómenos aplicados. Hasta que eso ocurra, nuestra conducta debería estar guiada por la investigación básica, y mantener un ojo avizor sobre las áreas que exigen mayor investigación futura.

Todos conocemos que los métodos de entrenamiento, en su mayor parte, están basados en unos principios conductuales simples. También todos sabemos que, a pesar de eso, el entrenamiento puede llegar a resultar infinitamente complejo. Por consiguiente, si no tiene otra excusa, coja el plan más simple. La parsimonia es la mejor virtud en cualquier ciencia, y puede ser algo tan pequeño como “haga X después de Y”, es decir, emparejamiento 1:1.

REFERENCIAS

  • Egger, M.D., and Miller, N.E. (1962). Secondary reinforcement in rats as a function of information value and reliability of the stimulus. Journal of Experimental Psychology, 64, 97-104.
  • Fantino, E. (1977). Conditioned reinforcement: Choice and information. In W.K. Honig & J.E.R. Staddon (Eds.), Handbook of operant behavior (pp. 313-339). Englewood Cliffs, NJ: Prentice-Hall
  • Pavlov, I.P. (1928). Lectures on conditioned reflexes. New York: International Publishers.
  • Rescorla, R.A., and Wagner, A.R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In A.H. Black & W.F. Prokasy (Eds.), Classical conditioning II: Current research and theory (pp.64-69). New York: Appleton-Century-Crofts.
  • Skinner, B.F. (1938). The behavior of organisms. New York: Appleton-Century-Crofts.

Eduardo J. Fernández, se graduó como M.S. en Behavior Analysis por la Universidad de North Texas (USA), donde fue co-fundador y presidente de la “Organization for Reinforcement Contingencies with Animals” (ORCA). Eduardo lleva la lista de discusión Animal Reinforcement Forum (ARF) listserv, que se dedica a la discusión en grupo sobre el entrenamiento de animales y la conducta desde un punto de vista científico, y también es el director del programa de la “Association for Behavior Analysis's Special Interest Group” y el “Animal Trainer's Forum”. Actualmente está trabajado en su doctorado sobre Psicología y Ciencias Neuronales y Conducta Animal en la Universidad de Indiana en Bloomington (USA). Pasa la mayor parte de su tiempo investigando sobre condicionamiento operante y respondiente en laboratorio y en el zoo de Indianapolis (USA).

Eduardo J. Fernández
Department of Psychology
Center for the Integrative Study of Animal Behavior
Indiana University
Email: eduferna@indiana.edu



(1) Traducido y publicado con permiso expreso del autor para: Contextos (www.conducta.org)

(2) Nota del traductor Se ha traducido el término “bridge” como puenteo y puentear, que son términos aceptados en castellano, aunque en el campo de la electrónica (p.ej. puentear un circuito o puentear el encendido de un coche). En este caso, el concepto es similar: puentear o unir un sonido con un reforzador primario. También se ha utilizado el término “clic” aceptado como sonido onomatopéyico, y “sonador” como cualquier aparato para hacer sonido (conocido como “ranita”), ambos aceptados por la RAE.

Inicio

DANOS TU OPINIÓN

Puntúa lo leído según consideres la información acertada, informativa y/o de interés.

Excelente Bueno Normal Malo Muy malo

¿Deseas hacer un comentario al respecto de lo leído?:

Título del comentario:

Introduce tus comentarios aquí debajo:

Nombre y correo electrónico (opcionales)

Nombre:

correo electrónico:

Por favor, enviadme la respuesta a mi dirección de correo electrónico

Artículos
Vida cotidiana
Preguntas y Respuestas

Biografías

Bibliografía
Humor
Enlaces
Quienes Somos
Editorial
Lista de Análisis de Conducta
Copyright Contextos:
aviso legal
Visión optimizada para pantalla 800 X 600.
Navegador: Internet Explorer 5.0
info@conducta.org