Conociendo el Llama 3 de Meta
Llama 3 de Meta se lanzó recientemente y fue recibido con gran entusiasmo por la comunidad de IA. Aprendamos más sobre Llama 3, lo último en avances de IA de Meta.

Cuando hicimos un resumen de las innovaciones en IA del primer trimestre de 2024, vimos que las distintas organizaciones lanzaban LLM, o modelos de lenguaje extensos, a diestra y siniestra. Continuando con esta tendencia, el 18 de abril de 2024, Meta lanzó Llama 3, un LLM de código abierto de última generación.
Quizás estés pensando: Es solo otro LLM. ¿Por qué la comunidad de IA está tan emocionada con él?
Aunque puedes ajustar modelos como GPT-3 o Gemini para obtener respuestas personalizadas, no ofrecen una transparencia total sobre su funcionamiento interno, como sus datos de entrenamiento, parámetros del modelo o algoritmos. Por el contrario, Llama 3 de Meta es más transparente, ya que su arquitectura y sus pesos están disponibles para su descarga. Para la comunidad de IA, esto supone una mayor libertad para experimentar.
En este artículo, aprenderemos qué puede hacer Llama 3, cómo surgió y cuál es su impacto en el campo de la IA. ¡Vamos directamente a ello!
Link to this sectionLa evolución de los modelos Llama de Meta#
Antes de sumergirnos en Llama 3, echemos un vistazo a sus versiones anteriores.
Meta lanzó Llama 1 en febrero de 2023, que se presentó en cuatro variantes con parámetros que iban de los 7 mil millones a los 65 mil millones. En el aprendizaje automático, los "parámetros" se refieren a los elementos del modelo que se aprenden a partir de los datos de entrenamiento. Debido a su menor número de parámetros, Llama 1 a veces tenía dificultades con la comprensión matizada y daba respuestas incoherentes.
Poco después de Llama 1, Meta lanzó Llama 2 en julio de 2023. Fue entrenado con 2 billones de tokens. Un token representa un fragmento de texto, como una palabra o parte de una palabra, utilizado como la unidad básica de datos para el procesamiento en el modelo. El modelo también contaba con mejoras como una ventana de contexto duplicada de 4096 tokens para entender pasajes más largos y más de 1 millón de anotaciones humanas para reducir los errores. A pesar de estas mejoras, Llama 2 seguía requiriendo mucha potencia informática, algo que Meta pretendía solucionar con Llama 3.
Link to this sectionPresentamos Llama 3 de Meta#
Llama 3 viene con cuatro variantes que fueron entrenadas con la asombrosa cifra de 15 billones de tokens. Más del 5% de esos datos de entrenamiento (alrededor de 800 millones de tokens) representaban datos en 30 idiomas diferentes. Todas las variantes de Llama 3 pueden ejecutarse en varios tipos de hardware de consumo y tienen una longitud de contexto de 8k tokens.

Fig 1. Llama 3 frente a Llama 2.
Las variantes del modelo vienen en dos tamaños: 8B y 70B, que indican 8 mil millones y 70 mil millones de parámetros, respectivamente. También hay dos versiones, base e instruct. "Base" se refiere a la versión estándar preentrenada. "Instruct" es una versión ajustada optimizada para aplicaciones o dominios específicos mediante entrenamiento adicional con datos relevantes.
Estas son las variantes del modelo Llama 3:
- Meta-Llama-3-8b: El modelo base 8B proporciona capacidades fundamentales de IA y es ideal para tareas generales, como el desarrollo de chatbots de atención al cliente.
- Meta-Llama-3-8b-instruct: Una versión ajustada instruct del modelo 8B que está optimizada para tareas específicas. Por ejemplo, puede utilizarse para crear herramientas educativas que expliquen temas complejos.
- Meta-Llama-3-70b: El modelo base 70B está diseñado para aplicaciones de IA de alto rendimiento. Este modelo funcionaría bien para aplicaciones como el procesamiento de abundante literatura biomédica para el descubrimiento de fármacos.
- Meta-Llama-3-70b-instruct: Esta versión está ajustada a partir del modelo 70B para aplicaciones de alta precisión, como el análisis de documentos legales o médicos, donde la precisión es fundamental.
Link to this sectionArquitectura del modelo Llama 3 de Meta#
Como ocurre con cualquier otro avance de Meta AI, se establecieron rigurosas medidas de control de calidad para mantener la integridad de los datos y minimizar los sesgos durante el desarrollo de Llama 3. Por lo tanto, el producto final es un modelo potente que se creó de forma responsable.
La arquitectura del modelo Llama 3 destaca por su enfoque en la eficiencia y el rendimiento en tareas de procesamiento del lenguaje natural. Construida sobre un marco basado en Transformer, enfatiza la eficiencia computacional, especialmente durante la generación de texto, mediante el uso de una arquitectura solo de decodificador.
El modelo genera resultados basándose únicamente en el contexto precedente sin un codificador para codificar las entradas, lo que lo hace mucho más rápido.

Fig 2. Arquitectura de modelo responsable de Llama 3.
Los modelos Llama 3 cuentan con un tokenizador con un vocabulario de 128K tokens. Un mayor vocabulario significa que los modelos pueden comprender y procesar mejor el texto. Además, los modelos utilizan ahora la atención de consulta agrupada (GQA) para mejorar la eficiencia de la inferencia. GQA es una técnica que puedes imaginar como un foco que ayuda a los modelos a centrarse en partes relevantes de los datos de entrada para generar respuestas más rápidas y precisas.
Aquí tienes algunos detalles más interesantes sobre la arquitectura del modelo Llama 3:
- Procesamiento de documentos consciente de los límites: Llama 3 mantiene la claridad a través de los límites de los documentos, lo cual es clave para tareas como el resumen.
- Mejor comprensión del código: Los datos de entrenamiento de Llama 3 incluyen cuatro veces más muestras de código, lo que aumenta sus capacidades de programación.
- Control de calidad robusto: Medidas rigurosas, incluidos filtros heurísticos y la eliminación de contenido NSFW, garantizan la integridad de los datos y minimizan los sesgos.
Link to this sectionLlama 3 está transformando nuestra forma de abordar el entrenamiento de modelos#
Para entrenar los modelos Llama 3 más grandes, se combinaron tres tipos de paralelización: paralelización de datos, paralelización de modelos y paralelización de tuberías.
La paralelización de datos divide los datos de entrenamiento entre varias GPU, mientras que la paralelización de modelos divide la arquitectura del modelo para utilizar la potencia computacional de cada GPU. La paralelización de tuberías divide el proceso de entrenamiento en etapas secuenciales, optimizando el cálculo y la comunicación.
La implementación más eficiente logró una utilización de cómputo notable, superando los 400 TFLOPS por GPU cuando se entrenó en 16 000 GPU simultáneamente. Estas ejecuciones de entrenamiento se llevaron a cabo en dos clústeres de GPU personalizados, cada uno de ellos compuesto por 24 000 GPU. Esta infraestructura computacional sustancial proporcionó la potencia necesaria para entrenar los modelos Llama 3 a gran escala de forma eficiente.
Para maximizar el tiempo de actividad de la GPU, se desarrolló una nueva pila de entrenamiento avanzada, que automatiza la detección de errores, la gestión y el mantenimiento. Se mejoraron enormemente la fiabilidad del hardware y los mecanismos de detección para mitigar los riesgos de corrupción silenciosa de datos. Además, se desarrollaron nuevos sistemas de almacenamiento escalables para reducir los costes generales de comprobación y reversión.
Estas mejoras condujeron a un tiempo de entrenamiento general con una eficacia superior al 95%. Combinadas, aumentaron la eficiencia del entrenamiento de Llama 3 aproximadamente tres veces en comparación con Llama 2. Esta eficiencia no es solo impresionante; está abriendo nuevas posibilidades para los métodos de entrenamiento de IA.
Link to this sectionAbriendo puertas con Llama 3#
Dado que Llama 3 es de código abierto, los investigadores y estudiantes pueden estudiar su código, realizar experimentos y participar en debates sobre preocupaciones éticas y sesgos. Sin embargo, Llama 3 no es solo para el público académico. También está causando sensación en aplicaciones prácticas. Se está convirtiendo en la columna vertebral de la interfaz de chat de Meta AI, integrándose a la perfección en plataformas como Facebook, Instagram, WhatsApp y Messenger. Con Meta AI, los usuarios pueden participar en conversaciones en lenguaje natural, acceder a recomendaciones personalizadas, realizar tareas y conectar con otros fácilmente.

Fig 3. Meta AI: Impulsado por Llama 3.
Link to this sectionComparación de Llama 3 con otros LLM#
Llama 3 funciona excepcionalmente bien en varios puntos de referencia clave que evalúan la comprensión compleja del lenguaje y las capacidades de razonamiento. Estos son algunos de los puntos de referencia que prueban varios aspectos de las capacidades de Llama 3:
- Massive Multitask Language Understanding (MMLU): mide sus conocimientos en diversos ámbitos.
- General Purpose Question Answering (GPQA): evalúa la capacidad del modelo para generar respuestas coherentes y correctas a una amplia gama de preguntas de cultura general.
- HumanEval: se centra en tareas de codificación y resolución de problemas, probando la capacidad del modelo para generar código de programación funcional y resolver desafíos algorítmicos.
Los excelentes resultados de Llama 3 en estas pruebas lo distinguen claramente de competidores como Gemma 7B de Google, Mistral 7B de Mistral y Claude 3 Sonnet de Anthropic. Según las estadísticas publicadas, en particular el modelo 70B, Llama 3 supera a estos modelos en todos los puntos de referencia mencionados anteriormente.

Fig 4. Comparación de Llama 3 con otros LLM.
Link to this sectionMeta Llama 3 se hace ampliamente accesible#
Meta está ampliando el alcance de Llama 3 haciéndolo disponible en una variedad de plataformas tanto para usuarios generales como para desarrolladores. Para los usuarios cotidianos, Llama 3 está integrado en plataformas populares de Meta como WhatsApp, Instagram, Facebook y Messenger. Los usuarios pueden acceder a funciones avanzadas como la búsqueda en tiempo real y la capacidad de generar contenido creativo directamente dentro de estas aplicaciones.
Llama 3 también se está incorporando a tecnologías portátiles como las gafas inteligentes Ray-Ban Meta y los cascos de realidad virtual Meta Quest para disfrutar de experiencias interactivas.
Llama 3 está disponible en una variedad de plataformas para desarrolladores, incluidas AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM y Snowflake. También puedes acceder a estos modelos directamente desde Meta. La amplia gama de opciones facilita a los desarrolladores la integración de estas capacidades avanzadas de modelos de IA en sus proyectos, ya sea que prefieran trabajar directamente con Meta o a través de otras plataformas populares.
Link to this sectionLa conclusión#
Los avances en aprendizaje automático siguen transformando nuestra forma de interactuar con la tecnología cada día. Llama 3 de Meta demuestra que los LLM ya no se limitan a generar texto. Los LLM están abordando problemas complejos y manejando múltiples idiomas. En general, Llama 3 está haciendo que la IA sea más adaptable y accesible que nunca. Mirando hacia el futuro, las actualizaciones planificadas para Llama 3 prometen aún más capacidades, como el manejo de múltiples modelos y la comprensión de contextos más amplios.
Echa un vistazo a nuestro repositorio de GitHub y únete a nuestra comunidad para aprender más sobre IA. Visita nuestras páginas de soluciones para ver cómo se aplica la IA en campos como la fabricación y la agricultura.






