Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

El 2024 comienza con una ola de IA generativa

Un vistazo a las emocionantes innovaciones en IA del primer trimestre de 2024. Cubriremos avances como la IA Sora de OpenAI, el chip cerebral de Neuralink y los LLMs más recientes.

ABAbirami Vina
6 min read
Avances en IA generativa a principios de 2024

La comunidad de la IA parece ser noticia casi a diario. Los primeros meses de 2024 han sido emocionantes y están repletos de nuevas innovaciones en IA. Desde potentes nuevos modelos de lenguaje grandes hasta implantes cerebrales humanos, 2024 se perfila como un año increíble.

Estamos viendo cómo la IA transforma sectores, hace que la información sea más accesible e incluso da los primeros pasos hacia la fusión de nuestras mentes con las máquinas. Retrocedamos al primer trimestre de 2024 y examinemos más de cerca los progresos realizados en IA en solo unos pocos meses.

Link to this sectionLos LLM son tendencia#

Los modelos de lenguaje grandes (LLM), diseñados para comprender, generar y manipular el lenguaje humano basándose en enormes cantidades de datos de texto, ocuparon un lugar central en el primer trimestre de 2024. Muchas grandes empresas tecnológicas lanzaron sus propios modelos LLM, cada uno con capacidades únicas. El increíble éxito de anteriores LLM como GPT-3 inspiró esta tendencia. Estos son algunos de los lanzamientos de LLM más destacados de principios de 2024.

Link to this sectionClaude 3 de Anthropic#

Anthropic lanzó Claude 3 el 14 de marzo de 2024. El modelo Claude 3 se presenta en tres versiones: Opus, Sonnet y Haiku, cada una de ellas orientada a distintos mercados y propósitos. Haiku, el modelo más rápido, está optimizado para respuestas rápidas y básicas. Sonnet equilibra la velocidad con la inteligencia y está dirigido a aplicaciones empresariales. Opus, la versión más avanzada, ofrece una inteligencia y un razonamiento inigualables y es ideal para tareas complejas y para alcanzar los mejores resultados en pruebas de rendimiento.

Claude 3 cuenta con muchas funciones y mejoras avanzadas:

  • Conversaciones multilingües mejoradas: capacidades mejoradas en idiomas como el español, el japonés y el francés.
  • Funciones de visión avanzadas: capaz de manejar diversos formatos visuales.
  • Minimización de rechazos: muestra mayor comprensión con menos rechazos innecesarios, lo que indica una mejor comprensión contextual.
  • Ventana de contexto ampliada: ofrece una ventana de contexto de 200K, pero es capaz de procesar entradas de más de 1 millón de tokens según las necesidades del cliente.

Gráfico que muestra la conciencia contextual de Claude 3 frente a versiones anteriores

Fig 1. Claude 3 tiene una mayor conciencia contextual que las versiones anteriores.

Link to this sectionDBRX de Databricks#

Databricks DBRX es un LLM abierto y de propósito general lanzado por Databricks el 27 de marzo de 2024. DBRX obtiene muy buenos resultados en diversas pruebas de rendimiento, incluyendo comprensión del lenguaje, programación y matemáticas. Supera a otros modelos establecidos siendo aproximadamente un 40% más pequeño que modelos similares.

Comparativa de DBRX con otros modelos

Fig 2. Comparación de DBRX con otros modelos.

DBRX se entrenó mediante la predicción del siguiente token con una arquitectura de mezcla de expertos (MoE) de grano fino, y es por eso que podemos observar mejoras significativas en el rendimiento de entrenamiento e inferencia. Su arquitectura permite al modelo predecir con mayor precisión la siguiente palabra en una secuencia consultando un conjunto diverso de submodelos especializados (los "expertos"). Estos submodelos son buenos manejando diferentes tipos de información o tareas.

Link to this sectionGemini 1.5 de Google#

Google presentó Gemini 1.5, un modelo de IA multimodal y eficiente en computación que puede analizar grandes cantidades de texto, vídeo y audio, el 15 de febrero de 2024. El modelo más reciente es más avanzado en cuanto a rendimiento, eficiencia y capacidades. Una característica clave de Gemini 1.5 es su avance en la comprensión de contextos largos. El modelo es capaz de manejar hasta 1 millón de tokens de forma consistente. Las capacidades de Gemini 1.5 también se deben a una nueva arquitectura basada en MoE.

Comparativa de las longitudes de contexto de LLMs populares

Fig 3. Comparación de las longitudes de contexto de los LLM populares

Estas son algunas de las características más interesantes de Gemini 1.5:

  • Manejo mejorado de datos: permite realizar cargas directas de archivos PDF extensos, repositorios de código o vídeos largos como prompts. El modelo puede razonar a través de modalidades y generar texto.
  • Cargas y consultas de múltiples archivos: los desarrolladores ahora pueden cargar varios archivos y realizar preguntas.
  • Puede usarse para diferentes tareas: está optimizado para escalar a través de diversas tareas y muestra mejoras en áreas como matemáticas, ciencia, razonamiento, multilingüismo, comprensión de vídeo y código.

Link to this sectionImágenes asombrosas creadas por IA#

El primer trimestre de 2024 ha revelado modelos de IA generativa que pueden crear imágenes tan reales que han provocado debates sobre el futuro de las redes sociales y el progreso de la IA. Analicemos los modelos que están dando que hablar.

Link to this sectionSora de OpenAI#

OpenAI, creador de ChatGPT, anunció el 15 de febrero de 2024 un modelo de aprendizaje profundo de texto a vídeo de última generación llamado Sora. Sora es un generador de texto a vídeo capaz de crear vídeos de un minuto de duración con alta calidad visual a partir de prompts textuales de los usuarios.

Por ejemplo, echa un vistazo al siguiente prompt.

“Un mundo de artesanía en papel magníficamente renderizado de un arrecife de coral, lleno de peces coloridos y criaturas marinas.”

Y aquí tienes un fotograma del vídeo resultante.

Un fotograma de un vídeo generado por OpenAI Sora

Fig 4. Un fotograma de un vídeo generado por Sora.

La arquitectura de Sora hace esto posible al combinar modelos de difusión para la generación de texturas y modelos Transformer para la coherencia estructural. Hasta ahora, el acceso a Sora se ha proporcionado a equipos de red teaming y a un grupo selecto de artistas visuales, diseñadores y cineastas para comprender los riesgos y obtener comentarios.

Link to this sectionStable Diffusion 3 de Stability AI#

Stability AI anunció la llegada de Stable Diffusion 3, un modelo de generación de texto a imagen, el 22 de febrero de 2024. El modelo combina una arquitectura de Transformer de difusión y coincidencia de flujo. Aún no han publicado un artículo técnico, pero hay algunas características clave a tener en cuenta.

Imagen generada por Stable Diffusion 3 de un mago lanzando un hechizo cósmico

Fig 5. La imagen resultante basada en el prompt: “Obra de arte épica de anime de un mago sobre una montaña por la noche lanzando un hechizo cósmico al cielo oscuro que dice "Stable Diffusion 3" hecho de energía colorida” (Fuente)

El último modelo de Stable Diffusion ofrece un rendimiento mejorado, calidad de imagen y precisión en la creación de imágenes con múltiples sujetos. Stable Diffusion 3 también ofrecerá una variedad de modelos que van desde los 800 millones hasta los 8 mil millones de parámetros. Permitirá a los usuarios elegir en función de sus necesidades específicas de escalabilidad y detalle.

Link to this sectionLumiere de Google#

El 23 de enero de 2024, Google lanzó Lumiere, un modelo de difusión de texto a vídeo. Lumiere utiliza una arquitectura llamada Space-Time-U-Net, o STUNet para abreviar. Ayuda a Lumiere a entender dónde están las cosas y cómo se mueven en un vídeo. Al hacerlo, puede generar vídeos fluidos y realistas.

Un fotograma de un vídeo generado por Google Lumiere de un panda tocando el ukelele

Fig 6. Un fotograma de un vídeo generado basado en el prompt: “Panda tocando el ukelele en casa.”

Con la capacidad de generar 80 fotogramas por vídeo, Lumiere está superando los límites y estableciendo nuevos estándares para la calidad de vídeo en el espacio de la IA. Estas son algunas de las características de Lumiere:

  • Imagen a vídeo: a partir de una imagen y un prompt, Lumiere puede animar imágenes y convertirlas en vídeos.
  • Generación estilizada: Lumiere puede crear vídeos con estilos específicos utilizando una única imagen de referencia.
  • Cinemagraphs: Lumiere puede animar regiones específicas dentro de una imagen para crear escenas dinámicas, como que un objeto concreto se mueva mientras el resto de la escena permanece estático.
  • Video Inpainting: puede modificar partes de un vídeo, como cambiar la vestimenta de las personas que aparecen en él o alterar los detalles del fondo.

Link to this sectionEl futuro parece estar aquí#

El comienzo de 2024 también ha traído muchas innovaciones en IA que parecen sacadas de una película de ciencia ficción. Cosas que antes habríamos dicho que eran imposibles se están trabajando ahora. El futuro no parece tan lejano con los siguientes descubrimientos.

El Neuralink de Elon Musk implantó con éxito su chip cerebral inalámbrico en un humano el 29 de enero de 2024. Este es un gran paso hacia la conexión de cerebros humanos con ordenadores. Elon Musk compartió que el primer producto de Neuralink, llamado ‘Telepathy’, está en desarrollo.

El implante de Neuralink

Fig 7. El implante Neuralink

El objetivo es permitir a los usuarios, especialmente a aquellos que han perdido la funcionalidad de sus extremidades, controlar dispositivos sin esfuerzo a través de sus pensamientos. Las aplicaciones potenciales van más allá de la comodidad. Elon Musk imagina un futuro en el que las personas con parálisis puedan comunicarse fácilmente.

Link to this sectionHoloTile Floor de Disney#

El 18 de enero de 2024, Walt Disney Imagineering presentó el HoloTile Floor. Ha sido denominado la primera superficie de cinta rodante omnidireccional para varias personas del mundo.

El Imagineer de Disney Lanny Smoot sobre el suelo HoloTile

Fig 8. Lanny Smoot, Imagineer de Disney, posa sobre su última innovación, la superficie HoloTile.

Puede moverse bajo cualquier persona u objeto como si fuera telequinesis para una experiencia inmersiva de realidad virtual y aumentada. Puedes caminar en cualquier dirección y evitar colisiones mientras estás sobre ella. El HoloTile Floor de Disney también puede instalarse en escenarios teatrales para bailar y moverse de formas creativas.

Link to this sectionVision Pro de Apple#

El 2 de febrero de 2024, el tan esperado casco Vision Pro de Apple salió al mercado. Cuenta con una serie de funciones y aplicaciones diseñadas para redefinir la experiencia de realidad virtual y aumentada. El casco Vision Pro atiende a una audiencia diversa combinando entretenimiento, productividad y computación espacial. Apple anunció con orgullo que más de 600 aplicaciones, que van desde herramientas de productividad hasta servicios de juegos y entretenimiento, estaban optimizadas para Vision Pro en su lanzamiento.

Link to this sectionDevin de Cognition#

El 12 de marzo de 2024, Cognition lanzó un asistente de ingeniería de software llamado Devin. Devin es el primer intento del mundo de un ingeniero de software de IA autónomo. A diferencia de los asistentes de codificación tradicionales que ofrecen sugerencias o realizan tareas específicas, Devin está diseñado para manejar proyectos completos de desarrollo de software desde el concepto inicial hasta su finalización.

Puede aprender nuevas tecnologías, crear e implementar aplicaciones completas, encontrar y corregir errores, entrenar sus propios modelos, contribuir a bases de código de código abierto y de producción, e incluso aceptar trabajos de desarrollo reales desde sitios como Upwork.

Comparativa de Devin con otros modelos

Fig 9. Comparación de Devin con otros modelos.

Devin fue evaluado en SWE-bench, una exigente prueba de rendimiento que pide a los agentes que resuelvan problemas reales de GitHub encontrados en proyectos de código abierto como Django y scikit-learn. Resolvió correctamente el 13,86% de los problemas de principio a fin, en comparación con el 1,96% del estado de la técnica anterior.

Link to this sectionMenciones honoríficas#

Ha sucedido tanto que no es posible cubrirlo todo en este artículo. Pero, aquí hay algunas menciones honoríficas más.

  • LATTE3D de NVIDIA, anunciado el 21 de marzo de 2024, es un modelo de IA de texto a 3D que crea instantáneamente representaciones 3D a partir de prompts de texto.
  • El nuevo generador de texto a vídeo de Midjourney, anticipado por el CEO David Holz, comenzó a entrenarse en enero y se espera que se lance pronto.
  • Avanzando en la revolución del PC con IA, Lenovo lanzó el ThinkBook 13x con tecnología E Ink Prism y portátiles de alto rendimiento con IA el 8 de enero de 2024.

Link to this section¡Mantente al día de las tendencias de IA con nosotros!#

El inicio de 2024 vio avances innovadores en IA y muchos hitos tecnológicos importantes. Pero esto es solo el comienzo de lo que la IA puede hacer. Si quieres saber más sobre los últimos desarrollos de IA, Ultralytics te tiene cubierto.

Echa un vistazo a nuestro repositorio de GitHub para ver nuestras últimas contribuciones en visión por ordenador e IA. También puedes consultar nuestras páginas de soluciones para ver cómo se está utilizando la IA en sectores como la fabricación y la sanidad.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático