¿Por qué son tan deficientes las IA en ortografía?

La inteligencia artificial (IA) sigue asombrándonos con sus capacidades crecientemente asombrosas: es capaz de generar textos, imágenes e incluso videos a demanda, en un instante. No obstante, aún tiene un largo trecho por recorrer, como TechCrunch recientemente explicó: si participase en un concurso de ortografía, probablemente fracasaría.

Los generadores de imágenes, como DALL-E 3 de OpenAI, enfrentan grandes dificultades para reproducir palabras comunes, de la misma manera que tienen problemas para recrear manos humanas sin cometer errores en el número de dedos. Para TechCrunch, la periodista Amanda Silberling le pidió a DALL-E 3 que diseñara un menú para un restaurante mexicano. Sin embargo, al revisar el resultado, encontró palabras como “taao”, “burto” o “enchida”, que, por si había alguna duda, no existen en absoluto.

Incluso ChatGPT no es perfecto. A pesar de que puede escribir textos completos en segundos, respetando la ortografía y la gramática, este agente conversacional aún tropieza cuando se le asignan ciertas tareas sencillas. Amanda Silberling puso a prueba esto pidiéndole que proporcionara una palabra de diez letras que no contuviera ni A ni E: ChatGPT respondió “balaclava” (nueve letras, con cuatro A).

Problemas estructurales

El cofundador de Lesan, una herramienta de traducción basada en IA, Asmelash Teka Hadgu, lo resume así: “Los generadores de imágenes tienden a funcionar mejor con automóviles o caras, y peor con elementos más pequeños, como dedos o escritura”. De hecho, cuando se alimentan de imágenes existentes, las IA generadoras de imágenes generalmente ignoran las palabras: estas solo son consideradas patrones, no elementos de un lenguaje en uso.

La comparación entre dedos de la mano y letras es apropiada porque es el mismo mecanismo en juego. Los algoritmos nunca aprendieron que “hola” no se escribe “heeelllooo”, al igual que nadie les enseñó que los humanos raramente tienen más de cinco dedos en una mano. Tras absorber datos de imágenes existentes, producen imágenes que contienen dedos o letras, sin comprender plenamente el significado de lo que están generando.

¿La solución para mejorar esto? Capacitación, más y más capacitación. Proporcione imágenes de manos con cinco dedos y explíqueles que las manos humanas son así, e introduzca a la IA a listas de palabras explicándoles que son palabras, no solo imágenes entre las que puede escoger. Entretanto, algunas herramientas basadas en IA, como Adobe Firefly, están configuradas para inicialmente no generar texto… a menos que el usuario redacte consultas insistiendo en ello. Así, obtiene lo que desea aunque la calidad no esté allí.

Las IA generativas demuestran estas limitaciones en su capacidad para estructurar su visión en muchas áreas. Amanda Silberling concluye con una imagen proporcionada por Adobe Firefly, a la que se le solicitó reproducir una tienda de instrumentos musicales. A primera vista, todo parece normal. Pero una inspección más cercana revela guitarras de siete cuerdas y teclas de piano dispuestas de manera extraña, lo que afecta a los amantes de la música de la misma manera que las palabras “enchida” y “burto” afectan a los aficionados de la comida mexicana.

BLOG