Durante la presentación de Gemini, una poderosa inteligencia artificial multimodal, Sundar Pichai, CEO de Google y Alphabet, aseguró que la compañía da “prioridad a la inteligencia artificial» desde hace casi una década. Sin embargo, el anuncio de Gemini resulta ser su más grande movimiento hasta ahora, en gran parte motivado por el gran impacto que viene teniendo OpenAI desde hace un año, cuando lanzó ChatGPT, el chatbot que sorprendió al mundo.
Los constantes lanzamientos de inteligencia artificial que hemos visto este año son simplemente sorprendentes. De hecho, esta misma semana QuickBlox anunció su asistente de SmartChat como una revolución para las comunicaciones, permitiendo a los desarrolladores la integración de un sistema de chatbots sin necesidad de código en sus aplicaciones. Toda esta ola de anuncios a lo largo de 2023 ha dejado predicciones prometedoras para una industria en crecimiento. Según una investigación, la inteligencia artificial generativa se convertirá en un mercado de 1,3 billones de dólares en 2032.
Aunque claramente la inteligencia artificial Gemini fue diseñada para impactar a todos los productos de Google, este lanzamiento también terminará impactando a toda la industria en general. Se trata de un LLM (large language model) que posee capacidades de próxima generación como razonamiento sofisticado, multimodalidad y codificación avanzada, entre otras cosas que harán mover más rápido a las demás compañías interesadas en competir en esta industria para lanzar cuanto antes sus desarrollos más avanzados.
Como no todas las tareas requieren la misma potencia, Gemini tendrá tres versiones: Ultra, el modelo más grande y capaz para tareas complejas; Pro, el mejor modelo para escalar en una amplia gama de tareas; y Nano, el modelo más eficiente para tareas en dispositivo.
Competir con ChatGPT, una necesidad inmediata
Es innegable que esta tecnología tiene el potencial de transformar al mundo. Una de sus principales promesas es la de optimizar muchas de las tareas repetitivas en diferentes áreas que van desde grandes fábricas hasta el día a día de las personas.
Sin embargo, al final todo se resume al mismo objetivo que tiene cualquier plataforma disponible en la web: una batalla para obtener la mayor cantidad de usuarios posible para, de alguna manera, engancharlos en la dinámica de la monetización, que puede ir desde suscripciones mensuales hasta el uso de datos de uso para fines comerciales.
Incluso Bard, el chatbot de Google, será el primero en sacar provecho de Gemini Pro, por lo que ha recibido una gran actualización en la que integra esta plataforma en su núcleo y ahora funcionará mucho mejor; aunque de momento los cambios solo serán notables en consultas en inglés.
A diciembre de 2023, ChatGPT tiene 180,5 millones de usuarios activos mensuales, mientras que la página oficial recibió 1.721 millones de visitas en noviembre de 2023. Indudablemente, el chatbot inteligente de OpenAI es el rival por vencer para cualquier empresa con productos similares. Por esto no es raro que en la presentación de Gemini los líderes de Google se hayan enfocado en comparar su inteligencia artificial con la de OpenAI a través de supuestas pruebas que demostrarían que Gemini es superior en muchos aspectos.
Inteligencia artificial más allá del texto
El objetivo principal anunciado es “hacer que la inteligencia artificial sea más útil para todos”. Además de asegurar que Gemini supera a otras inteligencias artificiales similares, una de las grandes promesas de Gemini es una capacidad impresionante que supera lo textual al permitir realizar cosas impresionantes en programación, imágenes, videos y audio.
Por ejemplo, Google aseguró que Gemini es un modelo más avanzado en matemáticas y programación que ChatGPT (GPT-4) y que incluso puede resolver problemas de física, pero ahí no termina todo. Una de las principales ventajas de Gemini es su impresionante capacidad para comprender e interactuar con contenido de video y audio.
Al ser un modelo multimodal, Gemini se ha desarrollado como “un todo”. Eso significa que, a diferencia de OpenAI, que entrenó inteligencias artificiales independientes como DALL-E para imágenes y Whisper para audio, Google creó una IA que puede generalizar y comprender, así como operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video.
El Pixel 8 Pro y WhatsApp ya pueden aprovechar Gemini
Demis Hassabis, CEO y cofundador de Google DeepMind, encargado de presentar este lanzamiento junto a Pichai, aseguró que una de las principales ventajas de Gemini es su flexibilidad, siendo un sistema que puede ejecutarse de manera eficiente en todo, desde centros de datos hasta dispositivos locales, como un smartphone.
Precisamente los usuarios propietarios de un smartphone Pixel 8 Pro ya pueden disfrutar del soporte para Gemini Nano (bien calculado por Google). A partir de hoy, la grabadora de audio podrá realizar un resumen automático de las grabaciones, mientras que el teclado Gboard comenzará a sugerir respuestas inteligentes con mucho sentido gracias a la función “Smart Reply” -de momento solo para conversaciones en WhatsApp y en inglés-, todo sin necesidad de una conexión a internet.
Si bien OpenAI -que ahora se considera un brazo de IA para Microsoft- viene liderando la carrera de la inteligencia artificial, este anuncio de Google impulsará a toda la industria en general hacia plataformas más poderosas con el concepto de IA multimodal.
Por Sergio Ramos, editor en Social Geek, y contribuidor en Entrepreneur y Forbes en Español. Experto en temas de tecnología que disfruta aprendiendo sobre startups, emprendimiento e innovación.