Apple: ¿Cuál es este nuevo enfoque que reta a ChatGPT?

Mientras que empresas como Google y Microsoft realizan numerosos anuncios relacionados con la IA, Apple se ha mantenido relativamente callada al respecto. La empresa de Cupertino solo ha indicado que está trabajando en inteligencia artificial generativa y que hará un anuncio al respecto este año. Sin embargo, detrás de las escenas, Apple está intensificando sus esfuerzos en IA. Recientemente, un equipo de investigadores de la compañía publicó un artículo científico en Arxiv, describiendo un enfoque novedoso que podría transformar la manera en que interactuamos con la inteligencia artificial generativa.

En los últimos años, los grandes modelos de lenguaje, como GPT-4 de OpenAI o Gemini de Google, han demostrado su eficacia. No obstante, el artículo de Apple sugiere que esta tecnología aún se ha explorado poco para procesar información no conversacional, como los elementos presentes en la pantalla de un dispositivo o tareas en segundo plano. Para que las interacciones con la IA sean naturales, es necesario que pueda responder al usuario teniendo en cuenta el contexto y comprendiendo referencias ambiguas.

Para abordar este desafío, Apple ha desarrollado un modelo llamado ReALM o Reference Resolution As Language Modeling, con un enfoque completamente innovador. Básicamente, esto implica convertir los elementos no conversacionales, como los que aparecen en la pantalla del usuario, en datos textuales que la IA pueda procesar. Como resultado, un usuario puede interactuar con un asistente que entiende lo que aparece en su pantalla. En un ejemplo propuesto por Apple, el usuario pide una lista de farmacias cercanas. Al mostrarse la lista, puede solicitar al asistente que llame a un elemento específico o al que “está en la parte inferior”. Gracias al enfoque de Apple, la IA comprende la posición de los diferentes elementos en la pantalla y sus ubicaciones.

Más eficaz que ChatGPT

De esta forma, Apple asegura tener un rendimiento superior al de GPT-4, el modelo de OpenAI, que también es capaz de integrar capturas de pantalla en sus respuestas. “Hemos demostrado mejoras significativas respecto a un sistema existente con funcionalidades similares en varios tipos de pruebas comparativas, y nuestro modelo más pequeño ha logrado aumentos absolutos de más del 5 % en pruebas basadas en pantalla. También realizamos comparaciones con GPT-3.5 y GPT-4, donde nuestro modelo más pequeño alcanzó un rendimiento comparable al de GPT-4, y nuestros modelos más grandes lo superaron significativamente”, afirma la publicación de Apple.

Además, RealLM posee muchos menos parámetros que el modelo más reciente de OpenAI. Por ello, Apple considera que, sin “comprometer el rendimiento”, su modelo representa la opción ideal para “un sistema de resolución de referencias práctico que puede residir en el dispositivo”. Este avance nos permite imaginar una nueva versión de Siri más inteligente y capaz de entender referencias ambiguas a elementos en pantalla o aplicaciones en segundo plano. Sin embargo, para conocer las novedades de Siri y iOS 18, incluyendo aquellas relacionadas con la inteligencia artificial, habrá que esperar hasta la conferencia WWDC de junio.

BLOG