IA: Cómo los retos pusieron a prueba a Midjourney y qué aprendizajes obtuvimos de ello

Este jueves 27 de abril, los lectores de Challenges tendrán acceso a nuestro nuevo número semanal titulado “La bomba ChatGPT” y el impacto de la inteligencia artificial en la economía. Este recorrido detrás de las escenas de esta poderosa herramienta creada por OpenAI, ya adoptada por más de 100 millones de usuarios, destaca las transformaciones que esta nueva revolución está provocando. La productividad, la propiedad intelectual, el empleo y la creatividad están experimentando cambios en diversos sectores, incluyendo la prensa. Por lo tanto, este reportaje fue el estímulo perfecto para que nuestra redacción también se enfrentara a esta nueva forma de producción.

Aunque los artículos de esta revista fueron escritos por periodistas humanos que realizaron investigaciones y entrevistaron a personas reales, lo mismo no ocurre con las 11 ilustraciones del reportaje (excluyendo fotografías). Después de algunas reservas iniciales, nuestra dirección artística decidió utilizar un programa de inteligencia artificial. Otro miembro del equipo editorial, Maxence D’Aversa, también colaboró con IA para ilustrar un artículo en la web. Pero antes, era necesario establecer algunas reglas de buenas prácticas.

¿Por qué elegir la herramienta Midjourney?

Realizamos múltiples pruebas para seleccionar el software adecuado, decantándonos finalmente por la última versión de Midjourney tras varios intentos. Así, optamos por la suscripción “básica”. Podríamos haber elegido software gratuito, como Dall-E o Stable Diffusion, entre decenas de otros como Craiyon o Firefly. Sin embargo, la creatividad y calidad de las imágenes generadas por Midjourney fueron decisivas.

Desarrollado por una fundación independiente en San Francisco, Midjourney resultó ser de fácil manejo. Creado por el investigador David Holtz y su equipo, utiliza “modelos de difusión”, es decir, “redes neuronales” que aprenden a reconocer la estructura subyacente de una imagen y a predecir la distribución de los píxeles.

¿Para qué se utilizó?

Ilustrar un reportaje editorial sobre IA puede ser complejo. Las opciones de los bancos de imágenes a menudo son básicas y no siempre coinciden con la línea gráfica del periódico. Es un reto para un fotógrafo visualizar un tema tan abstracto como los algoritmos o las redes neuronales. Aunque no imposible, como demuestran las impresionantes fotografías de Gabriele Galimberti y Paolo Woods sobre los estragos de los paraísos fiscales. También podríamos haber recurrido a ilustradores, cuya creatividad podría complementar un tema de esta naturaleza. Sin embargo, consideramos que utilizar IA para un tema sobre… IA, era apropiado, manteniendo coherencia entre el sujeto y la imagen.

Por ejemplo, un artículo del reportaje aborda los sesgos políticos de ChatGPT. Según usuarios republicanos, la herramienta se resiste a escribir poemas en honor a Donald Trump, pero no tiene problemas con el presidente Biden. En lugar de usar una fotografía genérica de los presidentes, “incitamos” a Midjourney a generar una ilustración.

Representamos a un político estadounidense caracterizado por la robotización, en su oficina con banderas estadounidenses, generada por Midjourney.

Otro ejemplo es un artículo sobre el uso de IA por la policía alemana para detectar contenido pornográfico en Twitter. Al usar una imagen de Midjourney, seguimos ilustrando el tema, con un enfoque ajustado.

Un largo camino hacia el valle inquietante

Midjourney permite crear ilustraciones a partir de una frase o palabras clave. Para un artículo sobre el dilema legal del uso de IA, solicitamos: “dibújame un robot en un tribunal”. O para el artículo sobre la detección de contenido pornográfico en Alemania: “Una pintura al estilo de Edvard Munch de policías alemanes frente a un llamativo ordenador rojo, en una paleta de tonos rojos”.

Luego, estas solicitudes se envían a un foro de Discord, donde cada usuario inicia sesión para generar imágenes. En este flujo constante, encontrar el propio “trabajo” puede ser desafiante. Todas las búsquedas son públicas en Midjourney, lo que permite que cada usuario vea las solicitudes.

Especialmente porque el software puede ser impredecible antes de generar la imagen deseada. “Tuve que realizar alrededor de cuarenta búsquedas durante una hora, afinando cada vez más la solicitud hasta lograr un resultado bastante satisfactorio”, explica nuestro periodista Maxence D’Aversa.

Por lo tanto, es necesario estimular tu “imaginación” con solicitudes específicas. Utiliza la herramienta para lograr el resultado deseado: el número correcto de dedos, por ejemplo, un detalle con el que el software aún lucha, al igual que con las patillas de las gafas, las sombras o los reflejos en los espejos. “Los ingenieros han corregido algunos de estos errores”, indica la investigadora en inteligencia artificial Nina Tinoukhah, “pero no debemos olvidar que las imágenes generadas contienen artefactos. Poseen una peculiaridad, lo que hace que el trabajo sea distinto al de un ChatGPT”.

El resultado raramente es perfecto porque Midjourney no posee las capacidades de ChatGPT: es un robot de imágenes y no de lenguaje. Cuando se le solicita que cree “un robot que asista a un paciente”, a veces el paciente se transforma en el robot. Los roles se invierten y confunden, generando imágenes perturbadoras. Incluso hay una expresión en inglés que describe esta experiencia: el “valle inquietante”, que refiere a la sensación de malestar ante estas representaciones.

Lo que aprendimos

La ventaja es la familiarización del equipo editorial con este software de IA. La rapidez con que estas tecnologías se están implementando en nuestra industria, y en otras, es sorprendente: desde la transcripción de entrevistas de audio a texto (Speech-to-text) o de texto a audio (text-to-speech), hasta la recomendación de títulos de artículos para redes sociales o Google, y correcciones ortográficas… Esto exige que cada profesión aproveche las oportunidades que ofrece, así como que conozca sus límites.

La IA no opera de manera autónoma y requiere supervisión humana. Muestra sesgos que necesitan control humano. Su uso, orientado a fines específicos y no solo de entretenimiento, demanda habilidades aún más particulares. En definitiva, se necesita un intermediario experto al mando. ¿Veremos pronto a iconógrafos ágiles capaces de dirigir la IA? No sería extraño. Esto marcaría un signo de colaboración entre humanos y máquinas, y no de sustitución de la máquina por el humano en estas tareas especializadas que requieren conocimiento y ética.

¿Y qué hay del periodismo en todo esto?

Ya que el uso de la IA generativa promueve la confianza entre periodista y lector, Challenges ha establecido límites que no deben cruzarse: este software no se empleará para competir con el trabajo de fotógrafos o caricaturistas de prensa, ni para generar imágenes realistas que puedan confundir o engañar a nuestros lectores. “Recrear una realidad sin mediación es extremadamente peligroso. Ilustrar una noticia con estas herramientas elimina el filtro, el medio representado por el ilustrador y el fotógrafo, quienes hacen una selección estética e informativa”, señala Laurent Verdier, iconógrafo en Challenges.

El impacto de una foto, capturada en el instante preciso, es parte esencial de la historia del periodismo. Y no será pronto cuando la inteligencia artificial reemplace a los periodistas de la Agence France Presse (AFP), Reuters o SIPA, cuyas fotografías empleamos. Porque la noticia se ve, tanto como se lee. La información debe impactar en la retina.

Por esta razón, las imágenes generadas por Midjourney siempre se acompañarán en el pie de foto con una lista de palabras clave o referencias utilizadas. Esto plantea otras interrogantes. Después de todo, ¿por qué usarlas? Otras revistas, como Cosmopolitan y The Economist, las han utilizado para abordar el tema de la IA generativa. Otros, como Le Figaro para ilustrar un caso de fraude no relacionado con la IA, se retractaron ante el temor a la controversia. Algunas publicaciones, como la suiza Heidi News, incluso han desarrollado un código ético.

Con justa razón, el empleo de estas imágenes aún enfrenta un vacío legal. En Francia, las leyes de propiedad intelectual únicamente se aplican a las “obras intelectuales”. Sin embargo, la presentación de múltiples demandas en Estados Unidos y la inminente votación sobre la Ley de Inteligencia Artificial a nivel europeo podrían modificar la situación. Esto permitiría una regulación más adecuada de su uso.

BLOG