Llama 3: Explicación del nuevo LLM de código abierto de Meta

La evolución de los modelos Llama de Meta

Llama 3 está transformando nuestra forma de entrenar a los modelos

Meta Llama 3 se hace ampliamente accesible

Cuando repasamos las innovaciones en inteligencia artificial (IA) del primer trimestre de 2024, vimos que diferentes organizaciones estaban lanzando LLM, o grandes modelos lingüísticos, a diestro y siniestro. Siguiendo esta tendencia, el 18 de abril de 2024, Meta lanzó Llama 3, un LLM de código abierto de última generación.

Puede que estés pensando: No es más que otro LLM. Por qué entusiasma tanto a la comunidad de la IA?

Aunque se pueden ajustar modelos como GPT-3 o Gemini para obtener respuestas personalizadas, no ofrecen una transparencia total en cuanto a su funcionamiento interno, como los datos de entrenamiento, los parámetros del modelo o los algoritmos. En cambio, Llama 3 de Meta es más transparente, ya que su arquitectura y sus pesos pueden descargarse. Para la comunidad de la IA, esto significa una mayor libertad para experimentar.

En este artículo aprenderemos qué puede hacer Llama 3, cómo surgió y su impacto en el campo de la IA. Manos a la obra.

La evolución de los modelos Llama de Meta

Antes de sumergirnos en Llama 3, echemos un vistazo a sus versiones anteriores.

Meta lanzó Llama 1 en febrero de 2023, que venía en cuatro variantes con parámetros que oscilaban entre 7.000 y 64.000 millones. En el aprendizaje automático, los "parámetros" se refieren a los elementos del modelo que se aprenden a partir de los datos de entrenamiento. Debido a su menor número de parámetros, Llama 1 a veces tenía dificultades para comprender los matices y daba respuestas incoherentes.

Poco después de Llama 1, Meta lanzó Llama 2 en julio de 2023. Se entrenó con 2 billones de tokens. Un token representa un fragmento de texto, como una palabra o parte de una palabra, que se utiliza como unidad básica de datos para su procesamiento en el modelo. El modelo también incluía mejoras como una ventana de contexto duplicada de 4096 tokens para comprender pasajes más largos y más de 1 millón de anotaciones humanas para disminuir los errores. A pesar de estas mejoras, Llama 2 seguía necesitando mucha potencia de cálculo, algo que Meta pretendía solucionar con Llama 3.

Presentamos Meta's Llama 3

Llama 3 incluye cuatro variantes que se entrenaron con la asombrosa cifra de 15 billones de tokens. Más del 5% de esos datos de entrenamiento (unos 800 millones de tokens) representaban datos en 30 idiomas diferentes. Todas las variantes de Llama 3 pueden ejecutarse en distintos tipos de hardware de consumo y tienen una longitud de contexto de 8.000 tokens.

__wf_reserved_inherit — Figura 1. Llama 3 frente a Llama 2.

Las variantes del modelo vienen en dos tamaños: 8B y 70B, que indican 8.000 millones y 70.000 millones de parámetros, respectivamente. También hay dos versiones, base e instruct. "Base" se refiere a la versión estándar preentrenada. "Instruct" es una versión ajustada y optimizada para aplicaciones o dominios específicos mediante entrenamiento adicional con datos relevantes.

Estas son las variantes del modelo Llama 3:

Meta-Llama-3-8b: El modelo base 8B proporciona capacidades fundamentales de IA, y es ideal para tareas generales como el desarrollo de chatbots de atención al cliente.
‍
Meta-Llama-3-8b-instruct: Una versión perfeccionada del modelo 8B que está optimizada para tareas específicas. Por ejemplo, puede utilizarse para crear herramientas educativas que expliquen temas complejos.
‍
Meta-Llama-3-70b: El modelo base 70B está diseñado para aplicaciones de IA de alto rendimiento. Este modelo funcionaría bien para aplicaciones como el procesamiento de amplia literatura biomédica para el descubrimiento de fármacos.
‍
Meta-Llama-3-70b-instruct: Esta versión se ha perfeccionado a partir del modelo 70B para aplicaciones de alta precisión, como el análisis de documentos jurídicos o médicos, donde la exactitud es fundamental.

Arquitectura del modelo Llama 3 de Meta

Como con cualquier otro avance de Meta AI, se aplicaron rigurosas medidas de control de calidad para mantener la integridad de los datos y minimizar los sesgos mientras se desarrollaba Llama 3. Así pues, el producto final es un potente modelo creado de forma responsable.

La arquitectura del modelo Llama 3 destaca por su enfoque en la eficiencia y el rendimiento en las tareas de procesamiento del lenguaje natural. Construida sobre un marco basado en Transformer, hace hincapié en la eficiencia computacional, especialmente durante la generación de texto, mediante el uso de una arquitectura de solo descodificador.

El modelo genera salidas basándose únicamente en el contexto precedente, sin un codificador que codifique las entradas, lo que lo hace mucho más rápido.

Los modelos Llama 3 incorporan un tokenizador con un vocabulario de 128.000 tokens. Un mayor vocabulario significa que los modelos pueden comprender y procesar mejor el texto. Además, los modelos utilizan ahora la atención a consultas agrupadas (GQA) para mejorar la eficacia de la inferencia. GQA es una técnica que puede considerarse como un foco de atención que ayuda a los modelos a centrarse en las partes relevantes de los datos de entrada para generar respuestas más rápidas y precisas.

Aquí tienes más detalles interesantes sobre la arquitectura del modelo Llama 3:

Procesamiento de documentos en función de los límites: Llama 3 mantiene la claridad a través de los límites de los documentos, lo que resulta clave para tareas como el resumen.
‍
Mejor comprensión del código: Los datos de entrenamiento de Llama 3 incluyen cuatro veces más muestras de código, lo que aumenta su capacidad de codificación.
‍
Control de calidad robusto: Medidas rigurosas, como filtros heurísticos y eliminación de NSFW, garantizan la integridad de los datos y minimizan los sesgos.

Llama 3 está transformando nuestra forma de entrenar a los modelos

Para entrenar los modelos más grandes de Llama 3, se combinaron tres tipos de paralelización: paralelización de datos, paralelización de modelos y paralelización de canalización.

La paralelización de datos reparte los datos de entrenamiento entre varias GPU, mientras que la paralelización de modelos divide la arquitectura del modelo para utilizar la capacidad de cálculo de cada GPU. La paralelización de canalizaciones divide el proceso de entrenamiento en etapas secuenciales, lo que optimiza el cálculo y la comunicación.

La implementación más eficiente consiguió un notable rendimiento computacional, superando los 400 TFLOPS por GPU cuando se entrenó en 16.000 GPUs simultáneamente. Estos entrenamientos se llevaron a cabo en dos clusters de GPU creados a medida, cada uno de ellos con 24.000 GPU. Esta importante infraestructura computacional proporcionó la potencia necesaria para entrenar eficazmente los modelos de Llama 3 a gran escala.

Para maximizar el tiempo de actividad de la GPU, se desarrolló una nueva pila de entrenamiento avanzada que automatiza la detección, gestión y mantenimiento de errores. Los mecanismos de fiabilidad y detección del hardware se mejoraron considerablemente para mitigar los riesgos de corrupción silenciosa de los datos. Además, se desarrollaron nuevos sistemas de almacenamiento escalables para reducir la sobrecarga de checkpoints y rollbacks.

Estas mejoras condujeron a un tiempo de entrenamiento global de más del 95% de efectividad. Combinadas, aumentaron la eficacia del entrenamiento de Llama 3 aproximadamente tres veces en comparación con Llama 2. Esta eficiencia no solo es impresionante, sino que abre nuevas posibilidades a los métodos de entrenamiento de IA.

Abrir puertas con Llama 3

Como Llama 3 es de código abierto, investigadores y estudiantes pueden estudiar su código, realizar experimentos y participar en debates sobre cuestiones éticas y sesgos. Pero Llama 3 no es sólo para el mundo académico. También está causando sensación en aplicaciones prácticas. Se está convirtiendo en la columna vertebral de la interfaz de chat Meta AI, integrándose perfectamente en plataformas como Facebook, Instagram, WhatsApp y Messenger. Con Meta AI, los usuarios pueden entablar conversaciones en lenguaje natural, acceder a recomendaciones personalizadas, realizar tareas y conectar con otros fácilmente.

Comparación de Llama 3 con otros LLM

Llama 3 obtiene resultados excepcionales en varias pruebas clave que evalúan la comprensión de lenguajes complejos y las capacidades de razonamiento. Estas son algunas de las pruebas que evalúan diversos aspectos de las capacidades de Llama 3:

Massive Multitask Language Understanding (MMLU) - Mide su conocimiento en varios dominios.
‍
General Purpose Question Answering (GPQA) - Evalúa la capacidad del modelo para generar respuestas coherentes y correctas a una amplia gama de preguntas de conocimientos generales.
‍
HumanEval - Se centra en tareas de codificación y resolución de problemas, poniendo a prueba la capacidad del modelo para generar código de programación funcional y resolver retos algorítmicos.

Los excelentes resultados de Llama 3 en estas pruebas la distinguen claramente de competidores como Gemma 7B de Google, Mistral 7B de Mistral y Claude 3 Sonnet de Anthropic. Según las estadísticas publicadas, en particular el modelo 70B, Llama 3 supera a estos modelos en todas las pruebas de referencia mencionadas.

Meta Llama 3 se hace ampliamente accesible

Meta está ampliando el alcance de Llama 3 haciéndolo disponible a través de una variedad de plataformas tanto para usuarios generales como para desarrolladores. Para los usuarios cotidianos, Llama 3 está integrada en plataformas populares de Meta como WhatsApp, Instagram, Facebook y Messenger. Los usuarios pueden acceder a funciones avanzadas como la búsqueda en tiempo real y la posibilidad de generar contenidos creativos directamente dentro de estas apps.

Llama 3 también se está incorporando a tecnologías vestibles como las gafas inteligentes Ray-Ban Meta y el casco de realidad virtual Meta Quest para experiencias interactivas.

Llama 3 está disponible en diversas plataformas para desarrolladores, como AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM y Snowflake. También puedes acceder a estos modelos directamente desde Meta. La amplia gama de opciones hace que sea fácil para los desarrolladores integrar estas capacidades avanzadas de modelos de IA en sus proyectos, ya sea que prefieran trabajar directamente con Meta o a través de otras plataformas populares.

Para llevar

Los avances en aprendizaje automático siguen transformando la forma en que interactuamos con la tecnología cada día. Llama 3 de Meta demuestra que los LLM ya no se limitan a generar texto. Los LLM están abordando problemas complejos y manejando múltiples lenguajes. En general, Llama 3 está haciendo que la IA sea más adaptable y accesible que nunca. De cara al futuro, las actualizaciones previstas para Llama 3 prometen aún más capacidades, como el manejo de múltiples modelos y la comprensión de contextos más amplios.

Consulte nuestro repositorio de GitHub y únase a nuestra comunidad para aprender más sobre IA. Visite nuestras páginas de soluciones para ver cómo se aplica la IA en campos como la fabricación y la agricultura.

Conociendo a Meta's Llama 3

La evolución de los modelos Llama de Meta

Presentamos Meta's Llama 3

Arquitectura del modelo Llama 3 de Meta

Llama 3 está transformando nuestra forma de entrenar a los modelos

Abrir puertas con Llama 3

Comparación de Llama 3 con otros LLM

Meta Llama 3 se hace ampliamente accesible

Para llevar

Leer más en esta categoría

FastVLM: Apple presenta su nuevo modelo de lenguaje de visión rápida

Automatización de la fabricación mediante IA de visión

El Internet industrial de las cosas (IIoT) explicado

¡Construyamos juntos el futuro
de la IA!

Conociendo a Meta's Llama 3

La evolución de los modelos Llama de Meta

Presentamos Meta's Llama 3

Arquitectura del modelo Llama 3 de Meta

Llama 3 está transformando nuestra forma de entrenar a los modelos

Abrir puertas con Llama 3

Comparación de Llama 3 con otros LLM

Meta Llama 3 se hace ampliamente accesible

Para llevar

Leer más en esta categoría

FastVLM: Apple presenta su nuevo modelo de lenguaje de visión rápida

Automatización de la fabricación mediante IA de visión

El Internet industrial de las cosas (IIoT) explicado

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!