¿Podría un tribunal realmente ordenar la destrucción de ChatGPT? El New York Times lo cree posible, y podría tener razón

Popular desde su lanzamiento a finales de 2022, la inteligencia artificial (IA) ChatGPT impresiona a sus usuarios por su velocidad y la humanización de sus respuestas. Como cualquier programa informático, este agente conversacional es incapaz de pensar como un ser humano y no comprende lo que escribe. Para imitar lo más fielmente posible la conversación y el habla de una persona, se entrena con enormes cantidades de datos extraídos de sitios web.

El Washington Post analizó un conjunto de datos llamado Colossal Clean Crawled Corpus, conocido como C4, de Google. Este contiene más de 15 millones de sitios web y la IA de Alphabet, entrenada con modelos llamados T5 y LLaMA, un gran modelo de lenguaje presentado en febrero de 2023. Para estudiar todos estos sitios web y clasificarlos, el periódico estadounidense colaboró con el Allen Institute for AI, especializado en Seattle, y SimilarWeb, una empresa de análisis de datos.

Tabla de contenido

IA y patentes

El conjunto de datos estudiado está dominado por los medios, el entretenimiento, el desarrollo de software, la medicina y la creación de contenidos. Los tres sitios más utilizados para el entrenamiento son, en primer lugar, Patents.google.com, un sitio que reúne textos de patentes otorgadas mundialmente. En un documento técnico que describe su metodología para entrenar su IA BERT, Google explica que las patentes son muy importantes por su extensión (alrededor de 10.000 palabras) y su complejidad, generalmente escritas por inventores y abogados. El segundo sitio es Wikipedia, que permite a la IA absorber una gran cantidad de datos históricos, legales, científicos, etc. El tercero es Scribd, una biblioteca digital a la que solo se puede acceder mediante suscripción.

Una formación disputada

El Washington Post, con la ayuda de SimilarWeb, clasificó los 15 millones de sitios en 11 categorías. El mayor sector es Empresa e Industria, que representa el 16% del total. El primero de este grupo en impulsar la IA es Fool.com, un sitio de asesoramiento sobre inversiones, ubicado en el puesto 13 en la lista de todos los sitios web. El sitio de financiación colectiva de proyectos Kickstarter ocupa el puesto 25. Cabe destacar que Patreon.com, un sitio de donaciones para creadores, está en el puesto 2398. El problema es que estos dos sitios podrían haber permitido a las IA acceder al contenido de los artistas sin su consentimiento y crear obras similares sin compensación financiera. Se han presentado quejas en Estados Unidos contra Stability AI, MidJourney y DeviantArt por este motivo.

Las noticias y los medios representan el 10% de todos los sitios web. El periódico estadounidense incluye en su base de datos al New York Times, Los Angeles Times, The Guardian, Forbes, HuffPost y hasta él mismo. Al igual que los artistas, muchos periodistas y editores critican el uso de sus artículos sin consentimiento ni compensación.

Filtrado aproximado

El C4 de Google se filtra para eliminar duplicados, páginas móviles innecesarias y contenido malicioso. Sin embargo, en la categoría de Noticias y Medios, el uso de sitios como RT, un medio afiliado al gobierno ruso, Breitbart, un sitio de extrema derecha, o incluso Vdare, un blog supremacista y antiinmigración, plantea interrogantes. Podría exigirse a la IA que emitiera comentarios discriminatorios hacia ciertos grupos étnicos.

El Washington Post enumera otros sitios que no han sido filtrados, incluyendo cientos de sitios pornográficos y más de 72.000 contenidos que evocan la esvástica.

Otra de las categorías más grandes es Comunidad, que representa el 5% de los sitios. Esta incluye especialmente contenido religioso. De los primeros 20 sitios, 14 son cristianos, 2 judíos, 1 musulmán, 1 mormón, 1 testigo de Jehová y 1 que celebra todas las religiones. Esta distribución desigual puede influir en la IA en sus comentarios. Por ejemplo, en 2021, el GPT-3 de OpenAI, al ser solicitado para completar la frase ‘Dos musulmanes entraron en un…’, respondió con una descripción de acciones violentas en el 66% de los casos.

Este análisis de los datos de entrenamiento de IA demuestra que todavía queda mucho trabajo por hacer para filtrar adecuadamente los sitios web utilizados. Los modelos lingüísticos principales entrenan con contenidos aún más extensos, según afirman los expertos al periódico americano. GPT-3 combina una cantidad de datos 40 veces mayor que la del C4. En cuanto al uso de contenidos protegidos por derechos de autor, además de las quejas presentadas por los artistas, los actores están comenzando a reaccionar. Reddit está considerando cobrar por el uso de su contenido. Meta y Twitter impiden la recuperación de sus redes sociales. Las autoridades de protección de datos tanto europeas como americanas también podrían exigir más transparencia.

BLOG

Blog

El uso indebido de ChatGPT perjudica el rendimiento académico y provoca pérdida de memoria

Byadmin May 3, 2024

El uso generalizado de inteligencia artificial generativa, como ChatGPT, en el ámbito académico está generando preocupación creciente entre investigadores y educadores. Aunque muchos estudiantes consideran esta tecnología una solución rápida...

Blog

ChatGPT: La IA es más humana que algunos estudiantes, según demuestra este sorprendente estudio

Byadmin May 3, 2024

Cuando se evalúan las capacidades de grandes modelos de lenguaje como ChatGPT, la mayoría de los estudios se centran en su habilidad para extraer información fáctica, ejecutar razonamientos lógicos o...

Blog

ChatGPT dice cualquier cosa sobre los internautas y es atacado

Byadmin May 2, 2024

Se avecinan nuevos problemas para OpenAI, la empresa detrás de ChatGPT. El activista austriaco Max Schrems, conocido por su activismo contra los gigantes de internet en cuestiones de datos personales,...

Blog

La doble amenaza que ChatGPT representa para los secretos corporativos

Byadmin April 27, 2024

Una vez que aprenden a usarlo, cada vez más empleados están utilizando ChatGPT para simplificar sus tareas, como responder correos electrónicos, preparar presentaciones o codificar software. Según Cyberhaven, una empresa...

Blog

ChatGPT presenta una nueva característica interesante… de la cual Europa se ve privada

Byadmin May 2, 2024

ChatGPT finalmente incorporará la función de “memoria”. Esta característica, útil para recordar detalles sobre usted, lamentablemente no estará disponible en Europa. OpenAI lo anunció y ya es una realidad: ChatGPT...

Blog

Quejas sobre ‘ChatGPT’: la CNPD recuerda los principios básicos

Byadmin April 27, 2024

La CNPD no tiene previsto pronunciarse sobre la decisión de la autoridad italiana respecto al uso de ChatGPT. A medida que las quejas aumentan, señala que correspondería al regulador irlandés...