GPT-4o vs Gemini Live: ¿Cuál será el mejor asistente IA multimodal?
Esta semana Google y OpenAI relevaron las actualizaciones que incorporarán sus servicios de inteligencia artificial (IA). Durante los últimos años, las empresas tecnológicas se han estado enfrentando en una competición por ver qué modelo de IA es más inteligente o incorpora funciones novedosas, pero ahora ha surgido un nuevo enfoque: hacerlos multimodales.
La palabra multimodal se volverá la moda dentro de poco a medida que las empresas tecnológicas apuestan por la forma más atractiva de sus modelos de IA en su vida cotidiana. La idea es que ahora los chatbots no se centren únicamente en responder texto, sino que también puedan hablar y compartir experiencias visuales con los usuarios, lo que se traduciría en un verdadero asistente de inteligencia artificial.
GPT-4 Omni
El primero en aparecer fue GPT-4o. Omni significa “omnicanal” y OpenAI promocionó la capacidad del modelo para procesar video junto con audio. En la demostración, se puede ver cómo ChatGPT resuelve un problema de matemáticas mientras el usuario le enseña su cuaderno a través de la cámara del teléfono. Según OpenAI, esta función ya está disponible para usuarios que paguen el servicio premium de la aplicación.
Gemini Live
El segundo en anunciar su nueva actualización de IA multimodal enfocada en el Proyecto Astra, que según la compañía, promete hacer más cosas que la competencia. Al igual que GPT-4o, se trata de un agente de IA multimodal que puede hablar con el usuario mientras «mira» el mundo a través de la cámara de un teléfono. En la demostración, la conversación parecía rápida y fluida, y la IA se adaptó rápidamente a las respuestas. Sin embargo, Google dice que esto se encuentra en las primeras etapas, e incluso señala algunos retos actuales que OpenAI ha superado.
“Si bien hemos logrado avances increíbles en el desarrollo de sistemas de IA que pueden comprender información multimodal, reducir el tiempo de respuesta a algo conversacional es difícil”, dijo Google en un publicación de blog.
El ganador
Sin duda, OpenAI y Google están liderando la revolución de la IA. Cada uno tiene fortalezas y debilidades, incluso después de los anuncios de la presentación de sus nuevas actualizaciones. Pero sí es importante considerar al verdadero ganador: el usuario. Tanto si se elige a GPT-4o como Gemini, la experiencia será surreal. Además, es importante mencionar que nos estamos dirigiendo a una era en la que es posible que prefieras un sistema de IA sobre otro, pero muchas personas terminarán usando múltiples IA de diferentes empresas.
OpenAI logró algo que Google deseaba que fuera posible hace unos meses, cuando tuvo que falsificar sus primeras demostraciones de Gemini a través de una demostración preparada en video. GPT-4o le da a ChatGPT ojos y voz, y el chatbot puede usar estos «sentidos» mientras habla con el usuario. Estas habilidades cambiarán la forma de ver el mundo.
También es importante el hecho de que GPT-4o es más rápido que GPT-4 a la hora de responder a las indicaciones. No se trata solo de la entrada de voz, ya que las indicaciones de texto generalmente le darán resultados más rápidos.
Por ahora, la IA multimodal de OpenAI está disponible para los usuarios de ChatGPT en los niveles Free y Plus, y este último permite darle indicaciones más extensas a la IA. La actualización también está disponible en dispositivos móviles, y pronto se lanzará una aplicación de escritorio para Mac.
En cuanto a Google, Gemini 1.5 Pro es el mejor modelo de la compañía de Mountain View, que permite realizar tareas de hasta 1 millón de tokens. Ese límite se duplicará pronto a 2 millones. Ya está disponible para los usuarios que paguen por la versión avanzada de Gemini. Esta es un área en la que Google parece superar a OpenAI, aunque los usuarios de Gemini en la versión gratuita no podrán aprovechar el límite de 1 millón de tokens.
Aún así, una de las características más destacables del Proyecto Astra son su capacidad para retener recuerdos de lo que acababa de ver. Por ejemplo, recuerda dónde estaban las gafas de un usuario cuando pregunta por ellas. Pero, de nuevo, a diferencia de GPT-4o, no se trataba de una demostración en directo. La tecnología de Google no está lista para ser utilizada ampliamente en este momento. Pasarán unos meses antes de que llegue a la aplicación Gemini.
La verdadera fortaleza de Gemini es que forma parte de un ecosistema mucho más grande que el que OpenAI puede ofrecer a ChatGPT. Google adaptó Gemini para que funcionara con varios productos, como Gmail, las aplicaciones de productividad de Google Workspace y la Búsqueda de Google.
Y lo que es más importante, está construyendo Android en torno a la IA. Eso incluye la funcionalidad mejorada de Circle a Search que incluso puede ejecutar acciones y una aplicación Gemini que tiene en cuenta el contexto. Al igual que la versión de OpenAI, la compañía también está trabajando para incorporar Gemini en otros ecosistemas como el de Apple.
Al final, los usuarios tendrán dos opciones y no se limitarán a usar una sola. Por un lado, ChatGPT seguirá siendo el favorito de muchos gracias a las indicaciones y la facilidad de acceder a la aplicación, además de ser el que incorpora las actualizaciones de manera inmediata. Por otro lado, Gemini AI estará de manera obligatoria en ciertas aplicaciones del ecosistema de Google, por lo que cualquier usuario con una cuenta de Gmail podrá hacer uso de las funciones del Proyecto Astra.
ChatGPT con GPT-4o y Google con Gemini prometen grandes experiencias. Algunos están disponibles para ser usados ahora mismo y otros llegarán en unos meses. Es probable que OpenAI y Google intenten copiar las iniciativas de IA del otro en los próximos meses y años para compensar las debilidades. Pero no hay que preocuparse por estar encerrado en una plataforma u otra, como muchas personas lo hacen con los sistemas operativos móviles y de escritorio. La IA estará disponible en todas las plataformas y podrá utilizar diferentes opciones para satisfacer diferentes necesidades.