ChatGPT se perderá menos en respuestas interminables

La versión de pago de ChatGPT, con el modelo GPT-4 Turbo, va más al grano cuando produce texto. Se ha desplegado una nueva versión del chatbot para hacerlo menos verborreico. Además, el modelo ha sido mejorado en otros aspectos técnicos.

No es todavía GPT-5, pero es una iteración bienvenida de lo existente. El viernes 12 de abril, OpenAI anunció una actualización de ChatGPT, su famoso chatbot, para su clientela de pago (ChatGPT Plus, Team, Empresa y a través de la API). Esta actualización afecta al modo GPT-4 Turbo, que se lanzó por primera vez en noviembre de 2023.

Una nueva versión de GPT-4 Turbo que Sam Altman, el director de OpenAI, ha elogiado: “GPT-4 es ahora mucho más inteligente y agradable de usar”. Sin embargo, esta reacción no revela mucho sobre los cambios realizados. Cualquier iteración de un chatbot suele ser descrita por sus promotores como “más inteligente”.

Para obtener detalles más precisos, hay que consultar un hilo de Twitter de OpenAI. La compañía estadounidense explica que ha “mejorado las capacidades de escritura, cálculo, razonamiento lógico y codificación” de su agente conversacional, especialmente desde su última actualización, fechada el 25 de enero de 2024 —siempre para GPT-4 Turbo.

Novedades en GPT-4 Turbo

La empresa ha revelado un cuadro que muestra la evolución de GPT-4 Turbo en cinco bancos de pruebas (Drop, GPQA, Math, MGSM, MMLU, HumanEval). MMLU y HumanEval aparecen muy estables, mientras que se observa progreso en todos los demás. OpenAI no especificó la unidad de los números presentados en el eje de ordenadas.

MMLU, por ejemplo, es una prueba que mide el alcance del conocimiento y la capacidad de resolución de problemas adquiridos por los grandes modelos de lenguaje durante el entrenamiento previo, recuerda Google. Cubre 57 tareas, incluyendo matemáticas elementales, historia de Estados Unidos, informática, derecho, etc., añade HuggingFace.

Math evalúa la capacidad de un modelo para resolver problemas matemáticos complejos que requieren razonamiento, solución de problemas en varias etapas y comprensión de conceptos. HumanEval se utiliza para medir las capacidades del lado del código (éxito de una prueba unitaria funcional para programación).

Existen muchos benchmarks en el mercado de la IA generativa, además de los ya mencionados anteriormente. Naturalmente, las empresas del sector pueden tender a destacar las pruebas que promueven los avances de su inteligencia artificial —no siempre son los mismos bancos de pruebas los que se utilizan.

Una IA que comparte menos sobre su vida

Estas pruebas quizás no sean de interés general. Sin embargo, lo que los usuarios notarán es que este nuevo ChatGPT probablemente “contará menos su vida” al generar una respuesta. Se supone que la herramienta será ahora más concisa en sus intervenciones escritas.

“Las respuestas serán más directas, menos verbosas y utilizarán un lenguaje más conversacional”, promete OpenAI. Una captura de pantalla compartida por la empresa compara dos resultados. El primero consta de nueve líneas de texto y dos emojis, el segundo de tres líneas y un solo emoji. Por lo tanto, es menos locuaz y va más al grano.

BLOG