Descubra cómo los pesos de los modelos actúan como el conocimiento de la IA. Explore cómo Ultralytics utiliza pesos optimizados para un entrenamiento y una inferencia más rápidos y precisos.
Los pesos del modelo son los parámetros aprendibles dentro de un modelo de aprendizaje automático que transforman los datos de entrada en resultados previstos . En una red neuronal, estos pesos representan la fuerza de las conexiones entre las neuronas a través de diferentes capas. Cuando se inicializa un modelo, estos pesos suelen establecerse en valores aleatorios pequeños, lo que significa que el modelo «no sabe» nada. A través de un proceso denominado entrenamiento, el modelo ajusta iterativamente estas ponderaciones en función de los errores que comete, aprendiendo gradualmente a reconocer patrones, características y relaciones dentro de los datos. Se puede pensar en las ponderaciones del modelo como la «memoria» o el «conocimiento» de la IA; almacenan lo que el sistema ha aprendido de sus datos de entrenamiento.
El objetivo principal del entrenamiento de una red neuronal es encontrar el conjunto óptimo de pesos del modelo que minimice el error entre las predicciones del modelo y la verdad real. Este proceso implica pasar datos a través de la red —un paso conocido como paso hacia adelante— y luego calcular un valor de pérdida utilizando una función de pérdida específica . Si la predicción es incorrecta, un algoritmo de optimización como el descenso de gradiente estocástico (SGD) o el optimizador Muon más reciente utilizado en YOLO26 calcula cuánto ha contribuido cada peso al error.
Mediante una técnica denominada retropropagación, el algoritmo actualiza ligeramente los pesos para reducir el error la próxima vez. Este ciclo se repite miles o millones de veces hasta que los pesos del modelo se estabilizan y el sistema alcanza una alta precisión. Una vez completado el entrenamiento, los pesos se «congelan» y se guardan, lo que permite desplegar el modelo para la inferencia en datos nuevos y desconocidos.
Es importante distinguir entre weights and biases, ya que funcionan juntos pero tienen fines diferentes. Mientras que los pesos del modelo determinan la fuerza y la dirección de la conexión entre las neuronas (controlando la pendiente de la activación), los sesgos permiten que la función de activación se desplace hacia la izquierda o hacia la derecha. Este desplazamiento garantiza que el modelo se ajuste mejor a los datos, incluso cuando todas las características de entrada son cero. Juntos, los pesos y los sesgos forman los parámetros aprendibles que definen el comportamiento de arquitecturas como las redes neuronales convolucionales (CNN).
Los pesos de los modelos son el componente central que permite que los sistemas de IA funcionen en diversas industrias. A continuación se presentan dos ejemplos concretos de cómo se aplican:
En la práctica, trabajar con pesos de modelo implica guardar los parámetros entrenados en un archivo y cargarlos más tarde para
la predicción o ajuste finoUltralytics
En el ecosistema Ultralytics
, estos se almacenan normalmente como .pt (PyTorch) archivos.
A continuación se muestra un ejemplo sencillo de cómo cargar pesos preentrenados en un YOLO y ejecutar una predicción:
from ultralytics import YOLO
# Load a model with pre-trained weights (e.g., YOLO26n)
model = YOLO("yolo26n.pt")
# Run inference on an image using the loaded weights
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")
Uno de los aspectos más potentes de los pesos de los modelos es su portabilidad. En lugar de entrenar un modelo desde cero, lo que requiere conjuntos de datos masivos y una potencia de cálculo significativa, los desarrolladores suelen utilizar el aprendizaje por transferencia. Esto implica tomar un modelo con pesos preentrenados en un gran conjunto de datos como COCO o ImageNet y adaptarlo a una tarea específica.
Por ejemplo, se pueden tomar los pesos de un detector de objetos general y ajustarlos en un conjunto de datos más pequeño de paneles solares. Dado que los pesos preentrenados ya comprenden los bordes, las formas y las texturas, el modelo converge mucho más rápido y requiere menos datos etiquetados. Herramientas como la Ultralytics simplifican este proceso, permitiendo a los equipos gestionar conjuntos de datos, entrenar modelos en la nube e implementar pesos optimizados en dispositivos periféricos de forma fluida.
La investigación moderna en IA a menudo se centra en reducir el tamaño de los archivos de los pesos de los modelos sin sacrificar el rendimiento, un proceso conocido como cuantificación de modelos. Al reducir la precisión de los pesos (por ejemplo, de 32 bits en coma flotante a enteros de 8 bits), los desarrolladores pueden disminuir significativamente el uso de memoria y mejorar la velocidad de inferencia. Esto es crucial para implementar modelos en hardware con recursos limitados, como teléfonos móviles o dispositivos Raspberry Pi. Además, técnicas como la poda eliminan los pesos que contribuyen poco al resultado, lo que optimiza aún más el modelo para aplicaciones en tiempo real.