ChatGPT tiene tics lingüísticos debido al colonialismo digital

El uso de la IA a gran escala está revelando nuevas tendencias lingüísticas y trayendo de vuelta algunas palabras obsoletas. El empleo de ciertos términos ha sido revelador, no solo en los textos generados por ChatGPT, sino también en cómo fue entrenado.

“Delve” no es realmente una palabra de uso común en inglés. Se refiere a “alcanzar algo desde una superficie”, o “examinar algo en detalle para intentar encontrar información”, según el Diccionario Cambridge. Sin embargo, desde 2023, su uso en artículos de investigación científica se ha incrementado diez veces, como señala el experto en inteligencia artificial Jeremy Nguyen.

¿A qué se debe este repentino y curioso aumento en el uso de la palabra “profundizar”? La respuesta sería simple, según el investigador: ChatGPT. El chatbot de OpenAI se utilizaría masivamente para redactar artículos de investigación, mencionó Jeremy Nguyen en una publicación en X (anteriormente Twitter). Pero “profundizar” no es la única palabra inusual empleada desproporcionadamente por la inteligencia artificial, y esto podría deberse a la manera en que se entrenan los chatbots.

ChatGPT desarrolla sus propios tics lingüísticos, inspirados en los trabajadores que lo entrenaron

En un artículo publicado el 16 de abril de 2024, The Guardian explica que esta tendencia de utilizar “profundizar” indiscriminadamente no es una coincidencia: “es más bien un fenómeno muy real, vinculado a la forma en que se ha desarrollado ChatGPT.” Al igual que otros chatbots, ChatGPT se basa en un modelo de lenguaje para operar, y este modelo a su vez fue entrenado con enormes cantidades de texto encontradas en Internet. Estos textos fueron luego etiquetados y el entrenamiento de la IA en estos modelos de lenguaje fue supervisado por humanos.

Sin embargo, estos humanos son, la mayoría de las veces, trabajadores precarios, “pequeñas manos de IA” que trabajan a bajo costo desde Kenia o Madagascar para etiquetar datos. Sin embargo, si “profundizar” rara vez se usa en inglés británico o americano, en Nigeria la palabra “se usa mucho más frecuentemente en inglés de negocios”, señala The Guardian. “Así que las personas responsables de entrenar a las IA proporcionaron ejemplos usando su idioma, lo que resultó en un sistema de IA que escribe un poco como el inglés que se habla en África.”

Este “sesgo” es particularmente notable y, por lo tanto, el artículo de The Guardian y los comentarios de Jeremy Nguyen no sorprendieron a los conocedores de la IA. En un subreddit dedicado a ChattGPT, los usuarios se divirtieron compartiendo otros términos que, según ellos, eran indicadores de oraciones escritas por el chatbot. Entre los más mencionados, destacamos “misterioso”, “floreciente”, “desmitificador”, “robusto” y “salvaguardar”. Individualmente, ninguna de estas palabras es realmente sorprendente (con la posible excepción de “floreciente”, raramente usada en la vida cotidiana), es más bien el uso combinado de estos términos lo que generalmente es un signo de IA.

ChatGPT no solo tiene tics lingüísticos en inglés. Los periodistas de Numerama utilizan la IA diariamente para producir resúmenes de artículos (que están disponibles con la suscripción a Numerama Plus) y, por lo tanto, pudieron notar algunos de estos “tics”. La IA suele generar frases muy largas, con un vocabulario complicado, y tiene una tendencia agotadora a utilizar el participio presente. Al generar el resumen de este artículo, ChatGPT utilizó “diez veces”, “prácticas lingüísticas”… pero por una vez, sin participio presente.

BLOG