¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

2024 comienza con una ola de IA generativa

Abirami Vina

6 minutos de lectura

12 de abril de 2024

Un vistazo a las innovaciones más interesantes en IA del primer trimestre de 2024. Cubriremos avances como Sora AI de OpenAI, el chip cerebral de Neuralink y los últimos LLM.

La comunidad de la IA parece ser noticia casi a diario. Los primeros meses de 2024 han sido emocionantes y están repletos de nuevas innovaciones en IA. Desde nuevos y potentes modelos de lenguaje grandes hasta implantes cerebrales humanos, 2024 se perfila como un año increíble.

Estamos viendo cómo la IA transforma las industrias, haciendo que la información sea más accesible e incluso dando los primeros pasos para fusionar nuestras mentes con las máquinas. Retrocedamos al primer trimestre de 2024 y observemos más de cerca el progreso realizado en la IA en tan solo unos meses.

Los LLM son tendencia

Los modelos de lenguaje grandes (LLM), diseñados para comprender, generar y manipular el lenguaje humano basándose en grandes cantidades de datos de texto, ocuparon un lugar central en el primer trimestre de 2024. Muchas de las principales empresas de tecnología lanzaron sus propios modelos LLM, cada uno con capacidades únicas. El increíble éxito de los LLM anteriores como GPT-3 inspiró esta tendencia. Estas son algunas de las versiones de LLM más notables de principios de 2024.

Claude 3 de Anthropic

Anthropic lanzó Claude 3 el 14 de marzo de 2024. El modelo Claude 3 viene en tres versiones: Opus, Sonnet y Haiku, cada una de las cuales sirve a diferentes mercados y propósitos. Haiku, el modelo más rápido, está optimizado para respuestas básicas y rápidas. Sonnet equilibra la velocidad con la inteligencia y está dirigido a aplicaciones empresariales. Opus, la versión más avanzada, ofrece una inteligencia y un razonamiento sin igual y es ideal para tareas complejas y para alcanzar los mejores puntos de referencia.

Claude 3 cuenta con muchas características y mejoras avanzadas:

  • Conversaciones multilingües mejoradas: Capacidades mejoradas en idiomas como español, japonés y francés.
  • Funciones avanzadas de visión: Capaz de manejar varios formatos visuales.
  • Mínimos Rechazos: Muestra una mayor comprensión con menos rechazos innecesarios, lo que indica una mejor comprensión contextual​.
  • Ventana de contexto extendida: Ofrece una ventana de contexto de 200K, pero es capaz de procesar entradas de más de 1 millón de tokens según las necesidades del cliente.
__wf_reserved_inherit
Fig. 1. Claude 3 tiene mayor conciencia contextual que las versiones anteriores.

DBRX de Databricks

Databricks DBRX es un LLM de propósito general y abierto lanzado por Databricks el 27 de marzo de 2024. A DBRX le va muy bien en varios puntos de referencia, incluida la comprensión del lenguaje, la programación y las matemáticas. Supera a otros modelos establecidos y es aproximadamente un 40% más pequeño que modelos similares.

__wf_reserved_inherit
Fig. 2. Comparación de DBRX con otros modelos.

DBRX se entrenó utilizando la predicción del siguiente token con una arquitectura de mezcla de expertos (MoE) de grano fino, y es por eso que podemos ver mejoras significativas en el rendimiento del entrenamiento y la inferencia. Su arquitectura permite que el modelo prediga la siguiente palabra en una secuencia con mayor precisión al consultar un conjunto diverso de submodelos especializados (los "expertos"). Estos submodelos son buenos para manejar diferentes tipos de información o tareas.

Gemini 1.5 de Google

El 15 de febrero de 2024, Google presentó Gemini 1.5, un modelo de IA multimodal y de computación eficiente que puede analizar grandes cantidades de datos de texto, vídeo y audio. El modelo más reciente es más avanzado en términos de rendimiento, eficiencia y capacidades. Una característica clave de Gemini 1.5 es su avance en la comprensión de contextos largos. El modelo es capaz de manejar hasta 1 millón de tokens de forma consistente. Las capacidades de Gemini 1.5 también se deben a una nueva arquitectura basada en MoE.

__wf_reserved_inherit
Fig. 3. Comparación de las longitudes de contexto de los LLM populares

Estas son algunas de las características más interesantes de Gemini 1.5:

  • Manejo de datos mejorado: Permite la carga directa de archivos PDF grandes, repositorios de código o vídeos largos como prompts. El modelo puede razonar a través de las modalidades y generar texto.
  • Múltiples cargas y consultas de archivos: ahora los desarrolladores pueden cargar varios archivos y hacer preguntas.
  • Se puede utilizar para diferentes tareas: Está optimizado para escalar a través de diversas tareas y muestra mejoras en áreas como matemáticas, ciencia, razonamiento, multilingüismo, comprensión de video y código.

Imágenes impresionantes de la IA

El primer trimestre de 2024 ha revelado modelos de IA generativa que pueden crear imágenes tan reales que han desatado debates sobre el futuro de las redes sociales y el progreso de la IA. Profundicemos en los modelos que están generando la conversación.

Sora de OpenAI 

OpenAI, el creador de ChatGPT, anunció un modelo de aprendizaje profundo de texto a video de última generación llamado Sora el 15 de febrero de 2024. Sora es un generador de texto a video capaz de generar videos de un minuto de duración con alta calidad visual basados en indicaciones textuales del usuario. 

Por ejemplo, eche un vistazo al siguiente prompt. 

“Un mundo de papel bellamente representado de un arrecife de coral, repleto de coloridos peces y criaturas marinas.” 

Y aquí tenemos un fotograma del vídeo de salida. 

__wf_reserved_inherit
Fig. 4. Un fotograma de un vídeo generado por Sora.

La arquitectura de Sora lo hace posible combinando modelos de difusión para la generación de texturas y modelos de transformadores para la coherencia estructural. Hasta ahora, se ha dado acceso a Sora a equipos red team y a un grupo selecto de artistas visuales, diseñadores y cineastas para comprender los riesgos y obtener feedback. 

Stable Diffusion 3 de Stability AI 

Stability AI anunció la llegada de Stable Diffusion 3, un modelo de generación de texto a imagen, el 22 de febrero de 2024. El modelo mezcla la arquitectura de transformador de difusión y la coincidencia de flujo. Aún no han publicado un documento técnico, pero hay algunas características clave a tener en cuenta.

__wf_reserved_inherit
Fig 5. La imagen de salida basada en el *prompt*: “Obra de arte anime épica de un mago en la cima de una montaña por la noche lanzando un hechizo cósmico al cielo oscuro que dice "Stable Diffusion 3" hecho de energía colorida”

El último modelo de Stable Diffusion ofrece un rendimiento, una calidad de imagen y una precisión mejorados en la creación de imágenes con múltiples sujetos. Stable Diffusion 3 también ofrecerá una variedad de modelos que van desde 800 millones hasta 8 mil millones de parámetros. Permitirá a los usuarios elegir en función de sus necesidades específicas de escalabilidad y detalle.

Lumiere de Google 

El 23 de enero de 2024, Google lanzó Lumiere, un modelo de difusión de texto a vídeo. Lumiere utiliza una arquitectura llamada Space-Time-U-Net, o STUNet para abreviar. Ayuda a Lumiere a entender dónde están las cosas y cómo se mueven en un vídeo. Al hacerlo, puede generar vídeos fluidos y realistas.

__wf_reserved_inherit
Fig. 6. Un fotograma de un vídeo generado a partir de la instrucción: “Panda tocando el ukelele en casa.”

Con la capacidad de generar 80 fotogramas por vídeo, Lumiere está superando los límites y estableciendo nuevos estándares de calidad de vídeo en el espacio de la IA. Estas son algunas de las características de Lumiere:

  • De imagen a video: A partir de una imagen y una instrucción, Lumiere puede animar imágenes en videos.
  • Generación estilizada: Lumiere puede crear vídeos con estilos específicos utilizando una sola imagen de referencia.
  • Cinemagraphs: Lumiere puede animar regiones específicas dentro de una imagen para crear escenas dinámicas, como un objeto en particular que se mueve mientras el resto de la escena permanece estática.
  • Video Inpainting: Puede modificar partes de un video, como cambiar la vestimenta de las personas dentro de él o alterar los detalles del fondo.

El futuro parece estar aquí

El comienzo de 2024 también ha traído muchas innovaciones en IA que parecen sacadas de una película de ciencia ficción. Se está trabajando en cosas que antes habríamos dicho que eran imposibles. El futuro no parece tan lejano con los siguientes descubrimientos.

Neuralink de Elon Musk

Neuralink de Elon Musk implantó con éxito su chip cerebral inalámbrico en un humano el 29 de enero de 2024. Este es un gran paso hacia la conexión de cerebros humanos a computadoras. Elon Musk compartió que el primer producto de Neuralink, llamado 'Telepathy', está en desarrollo. 

__wf_reserved_inherit
Fig 7. El implante Neuralink

El objetivo es permitir a los usuarios, en particular a aquellos que han perdido la funcionalidad de sus extremidades, controlar dispositivos sin esfuerzo a través de sus pensamientos. Las posibles aplicaciones van más allá de la comodidad. Elon Musk imagina un futuro en el que las personas con parálisis puedan comunicarse fácilmente.

El suelo HoloTile de Disney 

El 18 de enero de 2024, Walt Disney Imagineering presentó el HoloTile Floor. Ha sido bautizado como el primer suelo de cinta de correr omnidireccional multipersonal del mundo. 

__wf_reserved_inherit
Fig 8. Lanny Smoot, Imagineer de Disney, posa en su última innovación, el suelo HoloTile.

Puede moverse bajo cualquier persona u objeto como telequinesis para una experiencia inmersiva de realidad virtual y aumentada. Puedes caminar en cualquier dirección y evitar colisiones mientras estás en él. El HoloTile Floor de Disney también se puede colocar en escenarios teatrales para bailar y moverse de forma creativa.

Vision Pro de Apple

El 2 de febrero de 2024, el tan esperado headset Vision Pro de Apple llegó al mercado. Cuenta con una serie de características y aplicaciones diseñadas para redefinir la experiencia de realidad virtual y aumentada. El headset Vision Pro está dirigido a un público diverso al combinar entretenimiento, productividad e informática espacial. Apple anunció con orgullo que más de 600 aplicaciones, que van desde herramientas de productividad hasta servicios de juegos y entretenimiento, fueron optimizadas para Vision Pro en su lanzamiento.

Devin de Cognition

El 12 de marzo de 2024, Cognition lanzó un asistente de ingeniería de software llamado Devin. Devin es el primer intento del mundo de crear un ingeniero de software autónomo de IA. A diferencia de los asistentes de codificación tradicionales que ofrecen sugerencias o completan tareas específicas, Devin está diseñado para gestionar proyectos completos de desarrollo de software desde el concepto inicial hasta su finalización. 

Puede aprender nuevas tecnologías, construir e implementar aplicaciones completas, encontrar y corregir errores, entrenar sus propios modelos, contribuir a código abierto y bases de código de producción, e incluso asumir trabajos de desarrollo reales de sitios como Upwork. 

__wf_reserved_inherit
Fig 9. Comparación de Devin con otros modelos.

Devin fue evaluado en SWE-bench, un benchmark desafiante que pide a los agentes que resuelvan problemas reales de GitHub que se encuentran en proyectos de código abierto como Django y scikit-learn. Resolvió correctamente el 13,86% de los problemas de principio a fin, en comparación con el anterior estado del arte del 1,96%.

Menciones honoríficas

Han pasado tantas cosas que es imposible cubrir todo en este artículo. Pero, aquí hay algunas menciones honoríficas más. 

  • LATTE3D de NVIDIA, anunciado el 21 de marzo de 2024, es un modelo de IA de texto a 3D que crea instantáneamente representaciones 3D a partir de indicaciones de texto.
  • El nuevo generador de texto a vídeo de Midjourney, anticipado por el CEO David Holz, comenzó a entrenarse en enero y se espera que se lance pronto.
  • Avanzando en la revolución de la IA en los PC, Lenovo lanzó el ThinkBook 13x con tecnología E Ink Prism y portátiles de IA de alto rendimiento el 8 de enero de 2024.

¡Manténgase actualizado sobre las tendencias de la IA con nosotros!

El comienzo de 2024 fue testigo de avances innovadores en la IA y de muchos hitos tecnológicos importantes. Pero esto es solo el comienzo de lo que la IA puede hacer. Si quieres saber más sobre los últimos desarrollos de la IA, Ultralytics te tiene cubierto.

Consulta nuestro repositorio de GitHub para ver nuestras últimas contribuciones en visión artificial e IA. También puedes consultar nuestras páginas de soluciones para ver cómo se está utilizando la IA en industrias como la fabricación y la atención médica

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles