¿Podría un tribunal realmente ordenar la destrucción de ChatGPT? El New York Times lo cree posible, y podría tener razón

Popular desde su lanzamiento a finales de 2022, la inteligencia artificial (IA) ChatGPT impresiona a sus usuarios por su velocidad y la humanización de sus respuestas. Como cualquier programa informático, este agente conversacional es incapaz de pensar como un ser humano y no comprende lo que escribe. Para imitar lo más fielmente posible la conversación y el habla de una persona, se entrena con enormes cantidades de datos extraídos de sitios web.

El Washington Post analizó un conjunto de datos llamado Colossal Clean Crawled Corpus, conocido como C4, de Google. Este contiene más de 15 millones de sitios web y la IA de Alphabet, entrenada con modelos llamados T5 y LLaMA, un gran modelo de lenguaje presentado en febrero de 2023. Para estudiar todos estos sitios web y clasificarlos, el periódico estadounidense colaboró con el Allen Institute for AI, especializado en Seattle, y SimilarWeb, una empresa de análisis de datos.

IA y patentes

El conjunto de datos estudiado está dominado por los medios, el entretenimiento, el desarrollo de software, la medicina y la creación de contenidos. Los tres sitios más utilizados para el entrenamiento son, en primer lugar, Patents.google.com, un sitio que reúne textos de patentes otorgadas mundialmente. En un documento técnico que describe su metodología para entrenar su IA BERT, Google explica que las patentes son muy importantes por su extensión (alrededor de 10.000 palabras) y su complejidad, generalmente escritas por inventores y abogados. El segundo sitio es Wikipedia, que permite a la IA absorber una gran cantidad de datos históricos, legales, científicos, etc. El tercero es Scribd, una biblioteca digital a la que solo se puede acceder mediante suscripción.

Una formación disputada

El Washington Post, con la ayuda de SimilarWeb, clasificó los 15 millones de sitios en 11 categorías. El mayor sector es Empresa e Industria, que representa el 16% del total. El primero de este grupo en impulsar la IA es Fool.com, un sitio de asesoramiento sobre inversiones, ubicado en el puesto 13 en la lista de todos los sitios web. El sitio de financiación colectiva de proyectos Kickstarter ocupa el puesto 25. Cabe destacar que Patreon.com, un sitio de donaciones para creadores, está en el puesto 2398. El problema es que estos dos sitios podrían haber permitido a las IA acceder al contenido de los artistas sin su consentimiento y crear obras similares sin compensación financiera. Se han presentado quejas en Estados Unidos contra Stability AI, MidJourney y DeviantArt por este motivo.

Las noticias y los medios representan el 10% de todos los sitios web. El periódico estadounidense incluye en su base de datos al New York Times, Los Angeles Times, The Guardian, Forbes, HuffPost y hasta él mismo. Al igual que los artistas, muchos periodistas y editores critican el uso de sus artículos sin consentimiento ni compensación.

Filtrado aproximado

El C4 de Google se filtra para eliminar duplicados, páginas móviles innecesarias y contenido malicioso. Sin embargo, en la categoría de Noticias y Medios, el uso de sitios como RT, un medio afiliado al gobierno ruso, Breitbart, un sitio de extrema derecha, o incluso Vdare, un blog supremacista y antiinmigración, plantea interrogantes. Podría exigirse a la IA que emitiera comentarios discriminatorios hacia ciertos grupos étnicos.

El Washington Post enumera otros sitios que no han sido filtrados, incluyendo cientos de sitios pornográficos y más de 72.000 contenidos que evocan la esvástica.

Otra de las categorías más grandes es Comunidad, que representa el 5% de los sitios. Esta incluye especialmente contenido religioso. De los primeros 20 sitios, 14 son cristianos, 2 judíos, 1 musulmán, 1 mormón, 1 testigo de Jehová y 1 que celebra todas las religiones. Esta distribución desigual puede influir en la IA en sus comentarios. Por ejemplo, en 2021, el GPT-3 de OpenAI, al ser solicitado para completar la frase ‘Dos musulmanes entraron en un…’, respondió con una descripción de acciones violentas en el 66% de los casos.

Este análisis de los datos de entrenamiento de IA demuestra que todavía queda mucho trabajo por hacer para filtrar adecuadamente los sitios web utilizados. Los modelos lingüísticos principales entrenan con contenidos aún más extensos, según afirman los expertos al periódico americano. GPT-3 combina una cantidad de datos 40 veces mayor que la del C4. En cuanto al uso de contenidos protegidos por derechos de autor, además de las quejas presentadas por los artistas, los actores están comenzando a reaccionar. Reddit está considerando cobrar por el uso de su contenido. Meta y Twitter impiden la recuperación de sus redes sociales. Las autoridades de protección de datos tanto europeas como americanas también podrían exigir más transparencia.

BLOG