Géminis de Google llega con fuerza, pero ChatGPT no se duerme

0
1021
Foto de internet

Ricardo Chacón21 febrero 2024Escuela de Ciencias de la ComunicaciónUJMD

Juguemos con las nuevas herramientas que aceleradamente están invadiendo nuestra realidad La Inteligencia Artificial Generativa está corriendo a todo galope, provocando no solo la irrupción de nuevas herramientas sino cambiando a fondo el presente y el futuro de nuestro mundo. Veamos un ejemplo combinando resúmenes, textos y videos sobre Géminis de Google, una nueva forma de entender y usar la información, y Sora de OpenIA superar el paso de texto a video y crear simulaciones inimaginables.

Ante el prompt, la pregunta sobre ¿qué es Géminis de Google?, la asistente virtual MONICA del ChatGPT responde: Géminis es un proyecto de Google que tiene como objetivo crear una nueva forma de buscar y acceder a la información en Internet. Se basa en la idea de que la información debería ser más accesible y fácil de encontrar, y que debería estar organizada de una manera más lógica y eficiente.

Este es un promocional de la nueva herramienta, interesante

Géminis utiliza un nuevo protocolo llamado «Gemini», que es más rápido y eficiente que el protocolo HTTP tradicional.

  • El Protocolo de Transferencia de Hipertexto, es utilizado para la transmisión de información en la World Wide Web. No podemos olvidar que la HTTP es la base para la comunicación de datos en la web y permite la transferencia de archivos, como texto, gráficos, sonido, video y otros archivos multimedia, entre un navegador web y un servidor web.
  • El protocolo Gemini está diseñado para ser simple y eficiente, y utiliza un formato de texto enriquecido llamado Gemini Markup Language (GML) para dar formato al texto. GML es un lenguaje de marcado ligero que utiliza etiquetas simples para dar formato al texto, como encabezados, listas y enlaces. Además, está diseñado para ser seguro, y utiliza el cifrado TLS para proteger los datos que se transmiten entre el cliente y el servidor (así, hay más seguridad para publicar documentos confidenciales o sensibles).

También utiliza un nuevo formato de archivo llamado Gemtext, que es más sencillo y fácil de leer que HTML. Ojo: Gemtext y HTML si bien son dos lenguajes de marcado (sistemas para describir datos humanos o de máquinas) utilizados para la creación y estructuración de documentos web, tienen diferencias significativas, entre otras:

  •  Gemtext es mucho más simple, está diseñado para ser fácil de leer y escribir y no tan complejo como el HTML;
  • Además, se centra en el texto plano y utiliza limitado de elementos de marcado, como encabezados, listas y enlaces al utilizar el GML que hablamos en el párrafo anterior.
  • Y, es más ligero en términos de características y funcionalidad en comparación con HTML.

Géminis todavía está en desarrollo, pero ya hay varios sitios web que lo utilizan. Puedes acceder a estos sitios web utilizando un navegador Géminis, como «Gemini Browser» o «Lagrange».

En resumidas cuentas, las ventajas de Géminis son:

  • Es más rápido y eficiente que HTTP.
  • Utiliza un formato de archivo más sencillo y fácil de leer.
  • Es más seguro que HTTP.
  • Es más privado que HTTP.

Hasta aquí lo esencial de Géminis, pero veamos entretelones. Aquí hay algunas cuestiones que nos plantea con gran elegancia y de manera resumida Juan Merodio, https://www.juanmerodio.com/

Veamos lo que dice

Google reveló Gemini 1.5 tan sólo unos días después de la V1.0 y, aunque aún no se ha hecho pública, muchos de los primeros probadores afirman que se trata del mayor avance en capacidades LLM de este año e incluso supera a ChatGPT-4.

  • La longitud de contexto de más de 1M de tokens (un millón de tokens y esta palabra se entiende como la unidad básica de texto que se utiliza para representar palabras, números, símbolos y otros elementos lingüísticos); esto significa que puede comprender muchos más datos que otros LLM/chatbots. (Los LLM son sistemas de inteligencia artificial que pueden generar texto, código y otros tipos de contenido de forma autónoma. Y los chatbots son programas informáticos que pueden mantener conversaciones con los usuarios de forma natural.
  • Normalmente, el aumento de la longitud del contexto perjudica el rendimiento, pero la versión 1.5 de Géminis, obtiene un 99% en la prueba «Needle In A Haystack» de localización de un hecho en un bloque largo de contexto. En otras palabras: se refiere a buscar algo difícil de encontrar en medio de una gran cantidad de información o elementos, y lo hace casi a la perfección.
  • Algunos ejemplos de lo que puede hacer Gemini 1.5:
    • Comprender y resumir un texto largo o un vídeo sin transcripciones
    • Resaltar conceptos clave o momentos notables
    • Predecir con un bajo índice de error si los vídeos están generados por IA
    • Encontrar, comprender y utilizar pequeños fragmentos de contexto de una gran base de conocimientos para responder a las preguntas de los usuarios (RAG).
  • Géminis puede procesar hasta 700.000 palabras de texto, 11 horas de audio o 1 hora de vídeo, y su capacidad aumentará con el tiempo.
    • Puede analizar, resumir, reformular y citar con precisión información específica de libros completos, grandes bases de código, películas, largas reuniones y mucho más.
  • Se cree, por muchas evidencias del producto, que en breve plazo se podría incluso conceder a Géminis acceso a datos de YouTube, Gmail o Google Drive y hacer preguntas sobre ellos.

Más información sobre Géminis

https://www.xataka.com/basics/google-gemini-que-como-funciona-diferencias-gpt-cuando-podras-usar-este-modelo-inteligencia-artificial

OpenIA responde

Pero la historia no acaba acá. El rival por excelencia, más bien uno de los puntos de referencia de la Inteligencia Artificial Generativa (IAG) del momento (o por lo menos el último año, es OpenIA y su ChatGPT.

En este sentido, tal como no lo cuenta Juan Merodio, https://www.juanmerodio.com/ , OpenAI, por su parte, acaba de lanzar su primer modelo de generación de vídeo «Sora» y, al parecer, está desarrollando marcos avanzados de agencia LLM para permitir que GPT-4 se integre profundamente en un sistema operativo.

Y es que Sora no solo es pasar del texto al video, sino producir el futuro desde una forma diferentes y distinta de hacer los videos. Es una locura… Más que un video, es un simulador con todo lo que ello conlleva.

Antonio Vallejo lo dice con claridad: el pasado día 15 de febrero, OpenAI volvió a dejar sorprendida a toda la comunidad entusiasta de la inteligencia artificial por medio de Sora, su nueva herramienta text-to-video para generar clips de hasta 60 segundos de vídeos realistas con tan solo una breve descripción en texto. Los resultados que ha presentado la compañía tras el anuncio nos han recordado precisamente al momento cuando OpenAI lanzó para el público ChatGPT, mostrando una vez más lo mucho que ha cambiado la IA en tan poco tiempo. Y es que fue verdaderamente un día para recordar.

https://www.genbeta.com/a-fondo/will-smith-deforme-a-videos-ultra-realistas-asi-increible-ha-sido-evolucion-ia-para-generar-videos-solo-ano

Un buen resumen de Sora, se los dejo

https://es.cointelegraph.com/news/sora-openai-video-generation-model-artifical-intelligence-weakness

Y sí quieren saber más de Sora, aquí les dejo varios videos de Xavier Mitjana y otros, muy pedagógicos e interesantes:

Video de YouTube de https://www.youtube.com/watch?v=b5Fh7TaTkEU
Video de YouTube de https://www.youtube.com/watch?v=a9ZSnPiP3O0

Por si fuera poco, también tiene planes para un motor de búsqueda de inteligencia artificial (piense en Perplexity, otro de las herramientas de IAG de gran potencia), lo que demuestra su deseo de golpear a Google donde más le duele.

Gartner acaba de predecir que el uso de motores de búsqueda tradicionales caerá un 25% a medida que los chatbots y agentes virtuales de IA se hagan con la cuota de mercado de aquí a 2026.

Los principales competidores de IA multimodal no se están alejando de la competencia; están avanzando a toda velocidad, lo que está impulsando mejoras épicas para los consumidores.

Si quieres aprender cómo usar Géminis, ve este par de tutoriales, por supuesto de YouTube

Vide de YouTube https://www.youtube.com/watch?v=5oVhtNvgGlI
Video de YouTube https://www.youtube.com/watch?v=nl6GNUb9Sz8
Video de YouTube https://www.youtube.com/watch?v=DbPTmR3N_XU