ChatGPT: La IA es más humana que algunos estudiantes, según demuestra este sorprendente estudio

Cuando se evalúan las capacidades de grandes modelos de lenguaje como ChatGPT, la mayoría de los estudios se centran en su habilidad para extraer información fáctica, ejecutar razonamientos lógicos o demostrar una creatividad expresiva similar a la de los humanos. Pero, ¿qué sucede con su capacidad para distinguir la verdad de la falsedad?

Un nuevo estudio sugiere que algunos de los sistemas de inteligencia artificial más avanzados actualmente pueden superar al humano promedio en la toma de decisiones morales. Publicado en la revista Scientific Reports, este estudio pionero realizado por investigadores de la Universidad Estatal de Georgia comparó los juicios morales de ChatGPT con los de estudiantes universitarios de un curso introductorio de filosofía.

¿Los hallazgos? Evaluadores independientes consideraron que las respuestas de la IA eran superiores en aspectos como inteligencia, equidad, confiabilidad y virtud en general. Para llegar a estas conclusiones, el equipo recogió primero respuestas escritas de 68 estudiantes encargados de evaluar 10 escenarios de dilemas morales, que iban desde actos claramente poco éticos, como robos a mano armada, hasta transgresiones de condiciones sociales más ambiguas. Posteriormente, las respuestas humanas con mayor puntuación se compararon con el análisis realizado por ChatGPT para cada situación.

CHATGPT ES MÁS MORAL QUE ALGUNOS HUMANOS, SEGÚN UN ESTUDIO

Se reclutó una muestra demográficamente diversa de 299 adultos para comparar de forma anónima las respuestas humanas y de la IA, calificándolas en 10 dimensiones diferentes, incluyendo moralidad, justicia, compasión y racionalidad.

Los resultados fueron reveladores: en medidas de virtud general, inteligencia y confiabilidad, las respuestas de ChatGPT consistentemente recibieron calificaciones más altas que las de los estudiantes. Los revisores frecuentemente elogiaron los juicios morales de la IA y encontraron su razonamiento más justo y racional.

Solo después de entregar sus evaluaciones, se informó a los participantes que uno de los conjuntos de respuestas provenía de ChatGPT. Al pedirles que distinguieran las respuestas humanas de las generadas por computadora, la mayoría de los evaluadores lo logró mucho más allá de los niveles de probabilidad, entre el 58 y el 82 por ciento de las veces, dependiendo del escenario.

IA: MEJORES RAZONADORES QUE ALGUNOS ESTUDIANTES

Los investigadores destacan que las avanzadas capacidades de comprensión y generación de lenguaje de GPT le permiten articular argumentos más coherentes y mejor estructurados que los estudiantes, quienes aún están desarrollando estas habilidades.

Sin embargo, también señalan algunas implicaciones preocupantes: la “sofisticación y la expresión convincente de posiciones morales” por parte de una IA podrían llevar a los humanos a aceptar acríticamente sus juicios, incluso si son imperfectos, simplemente porque parecen bien razonados superficialmente. “Si las personas ven los modelos de lenguaje de IA como más virtuosos y confiables, podrían actuar basándose en los consejos cuestionables que estos modelos proporcionan sobre situaciones morales”, dijo Michael Owens, coautor del estudio. Evidentemente, esto podría ser problemático.

Además, no está claro si los grandes modelos de lenguaje como ChatGPT realmente “entienden” los conceptos morales y el razonamiento ético de la misma manera que los humanos, o si sus resultados son solo una forma avanzada de “confusión moral que suena plausible, pero que puede emitir juicios inexactos sin una verdadera comprensión moral.

Después de todo, el estudio revela que aunque la IA superó a los estudiantes en la mayoría de las medidas éticas, sus respuestas no fueron percibidas como más compasivas o emocionales. Como era de esperarse, las capacidades computacionales puras en escenarios de dilemas no equivalen necesariamente a un sentido más profundo de la moralidad humana. “Estos modelos lingüísticos tan sofisticados pueden parecer muy convincentes, pero debemos ser cautelosos y preguntarnos si realmente poseen una comprensión moral de una situación específica”, advirtió Patrick Grim, profesor de filosofía que participó en el estudio.

CHATGPT SIGUE SIENDO IMPERFECTO Y NO SUPERARÁ EL JUICIO DE LOS ADULTOS

A pesar de la aparente superioridad de la IA sobre el papel, los investigadores reconocen rápidamente el alcance limitado del estudio, que comparó GPT con una cohorte relativamente inexperta. Replicar las pruebas con estudiantes más avanzados o especialistas en ética profesional podría revertir o reducir la aparente ventaja de la IA.

También queda abierta la cuestión de cómo diferentes consultas iniciales o enfoques conversacionales podrían influir en los resultados de una IA. Por ejemplo, la IA de Anthropic está diseñada específicamente para evitar sugerir acciones potencialmente peligrosas.

No obstante, el estudio marca un hito inicial importante en la exploración de las capacidades de razonamiento ético de los grandes modelos lingüísticos. A medida que los sistemas de IA se vuelven más sofisticados, será cada vez más crucial realizar evaluaciones rigurosas de su juicio moral en situaciones reales, especialmente cuando se trata de legislar para regular mejor estas tecnologías. Es de destacar que OpenAI, por su parte, ha realizado un descubrimiento que podría ser potencialmente peligroso para la humanidad en este ámbito.

BLOG