Entender cómo la IA otorga significado a las palabras te permite hacer un mejor uso de Chat GPT

Uno de los problemas que la IA (Chat GPT) todavía no ha resuelto es la asociación de símbolos –por ejemplo, palabras– con su significado, anclado en el mundo real, un desafío conocido como el “anclaje de símbolos”.
Por ejemplo, si digo: “el gato duerme en su cojín porque está cansado”, la mayoría de los seres humanos entenderá sin esfuerzo que “él” se refiere a “gato” y no a “cojín”. Esto se conoce como razonamiento de sentido común (no necesariamente para IA como Chat GPT).

Entonces, ¿cómo lograr que una IA realice este análisis? La técnica denominada “incrustación de palabras”, aunque no soluciona completamente el problema, ofrece sin embargo una solución tremendamente eficaz. Es importante conocer los principios de esta técnica, ya que es la que se utiliza en la mayoría de los modelos de IA recientes, incluido Chat GPT… y es similar a las técnicas empleadas por Cambridge Analytica, por ejemplo.

La incrustación de palabras, o cómo sistemas de inteligencia artificial como Chat GPT asocian palabras cercanías

Esta técnica consiste en sustituir una palabra (que puede considerarse como un símbolo abstracto, imposible de vincular directamente con su significado) por un vector numérico (una lista de números). Cabe destacar que este paso a lo numérico permite que esta representación sea utilizada directamente por redes neuronales y beneficiarse de sus capacidades de aprendizaje.

Específicamente, estas redes neuronales aprenderán, a partir de corpus de texto muy grandes, a incrustar una palabra en un espacio numérico de gran dimensión (típicamente 300) donde cada dimensión calcula la probabilidad de ocurrencia de esa palabra en ciertos contextos. Simplificando, se reemplaza, por ejemplo, la representación simbólica de la palabra “gato” por 300 números que representan la probabilidad de encontrar esa palabra en 300 tipos de contextos diferentes (texto histórico, texto sobre animales, texto tecnológico, etc.) o en co-ocurrencia con otras palabras (orejas, bigote o avión).

Aunque este enfoque puede parecer muy limitado, tiene un gran valor en dimensiones elevadas: codifica palabras con significados similares con valores numéricos cercanos. Esto permite definir nociones de proximidad y distancia para comparar el significado de los símbolos, lo cual es un primer paso hacia su comprensión.

Para dar una idea de la potencia de tales técnicas (de hecho, del poder de la estadística en grandes dimensiones), tomemos un ejemplo del que se ha hablado mucho

Vincular los rasgos psicológicos de los internautas con sus “me gusta” mediante estadísticas en grandes dimensiones
Con un enfoque similar, empresas como Cambridge Analytica pudieron influir en el resultado de elecciones aprendiendo a asociar preferencias electorales (representaciones simbólicas) con diferentes contextos de uso digital (estadísticas obtenidas de páginas de Facebook de usuarios).

Sus métodos se basan en una publicación científica de 2014 en la revista PNAS, que comparaba juicios humanos y estadísticos sobre perfiles de Facebook.

El experimento reportado en esta publicación pedía a los participantes que definieran ciertos rasgos psicológicos (¿son concienzudos, extrovertidos, etc.?), otorgándoles así etiquetas simbólicas. También se les podía representar mediante etiquetas numéricas que contabilizaban los “me gusta” que habían dado en Facebook en diferentes temas (deportes, ocio, cine, cocina, etc.). Entonces, mediante estadísticas en este espacio numérico de gran dimensión, se aprendía a asociar ciertas áreas de este espacio con ciertos rasgos psicológicos.

Luego, para un nuevo sujeto, solo mirando su perfil de Facebook, se podía determinar en qué parte de este espacio se encontraba y, por lo tanto, a qué tipos de rasgos psicológicos se acercaba más. También se podía comparar esta predicción con lo que sus allegados sabían sobre él.

El resultado principal de esta publicación es que, si disponemos de los medios adecuados (en un espacio suficientemente grande, con bastantes “me gusta” para recopilar y con suficientes ejemplos, en este caso, más de 70.000 sujetos), el juicio estadístico puede resultar más preciso que el juicio humano. Con 10 “me gusta”, se sabe más de uno que lo que sabe un colega de trabajo; con 70 “me gusta”, más que los amigos; y con 275 “me gusta”, más que la propia pareja.

Tomar conciencia de lo que nuestros “me gusta” revelan sobre nosotros

Esta publicación nos advierte de que, al cruzar diferentes indicadores en grandes cantidades, resultamos ser muy predecibles y, por lo tanto, debemos ser cautelosos al dejar rastros en las redes sociales, ya que estos pueden ser utilizados para hacernos recomendaciones o dirigirnos anuncios de manera muy eficaz. La explotación de este tipo de técnicas constituye también la principal fuente de ingresos para muchos actores en internet.

Cambridge Analytica fue más allá al sustraer los perfiles de Facebook de millones de estadounidenses y aprender a asociar sus “me gusta” con sus preferencias electorales, con el fin de dirigir de manera más efectiva las campañas electorales en Estados Unidos. Estas técnicas también fueron utilizadas durante el referéndum del Brexit, confirmando su efectividad.

Es importante señalar que lo único que ha sido cuestionado por los tribunales es la extracción ilegal de los perfiles de Facebook, lo cual debería hacernos reflexionar sobre las huellas que dejamos en internet.

Calcular con palabras teniendo en cuenta su significado: la manera de utilizar mejor Chat GPT

Aprovechando este mismo poder de las estadísticas en alta dimensión, las técnicas de incrustación léxica utilizan grandes corpus de textos disponibles en internet (Wikipedia, libros digitalizados, redes sociales) para asociar palabras con su probabilidad de aparición en distintos contextos, es decir, en diferentes tipos de textos. Como mencionamos anteriormente, esto permite considerar la proximidad en este espacio de alta dimensión como una similitud semántica y, por ende, calcular con palabras teniendo en cuenta su significado.

Un ejemplo clásico que se menciona es tomar un vector digital que representa la palabra “rey”, restarle el vector (del mismo tamaño porque informa sobre las probabilidades de ocurrencia con el mismo criterio) que representa la palabra “hombre”, y sumarle el vector que representa la palabra “mujer”, para obtener un vector muy cercano al que representa la palabra “reina”. En otras palabras, logramos aprender una relación semántica del tipo “A es a B como C es a D”.

El principio utilizado aquí para definir la semántica es que dos palabras similares se usan en los mismos contextos: hablamos de “semántica distributiva”. Es este principio de codificación de palabras el que utiliza Chat GPT, al cual añade otras técnicas.

Esta codificación a menudo permite que use las palabras de manera pertinente; a veces, también lo lleva a cometer errores graves, denominados alucinaciones, donde parece inventar hechos nuevos. Este es el caso, por ejemplo, cuando se le pregunta cómo diferenciar los huevos de gallina de los de vaca y responde que estos últimos son más grandes. ¿Pero es realmente sorprendente cuando entendemos cómo codifica el significado de los símbolos que maneja?

Desde este enfoque, responde adecuadamente a la pregunta que le formulamos, del mismo modo que puede decirnos, si le preguntamos, que las vacas son mamíferos y no ponen huevos. El único problema es que, asombrados por la calidad de sus conversaciones, pensamos que tiene un razonamiento de sentido común similar al nuestro: que “entiende” como nosotros, cuando lo que entiende proviene simplemente de estas estadísticas en alta dimensión.

BLOG