¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

¿Qué es EfficientNet? Una descripción general rápida.

Abirami Vina

6 minutos de lectura

29 de agosto de 2025

¡Comprenda la arquitectura de EfficientNet y su magia de escalado compuesto! Explore EfficientNet B0-B7 para una eficiencia de clasificación y segmentación de imágenes de primer nivel.

En 2019, investigadores de Google AI presentaron EfficientNet, un modelo de visión artificial de última generación creado para reconocer objetos y patrones en imágenes. Fue diseñado principalmente para la clasificación de imágenes, que implica asignar una imagen a una de varias categorías predefinidas. Sin embargo, hoy en día, EfficientNet también sirve como base para tareas más complejas como la detección de objetos, la segmentación y el aprendizaje por transferencia.

Antes de EfficientNet, este tipo de modelos de aprendizaje automático y de Visión Artificial intentaban mejorar la precisión añadiendo más capas o aumentando el tamaño de estas. Las capas son los pasos en un modelo de red neuronal (un tipo de modelo de aprendizaje profundo inspirado en el cerebro humano) que procesan datos para aprender patrones y mejorar la precisión. 

Estos cambios crearon una disyuntiva, haciendo que los modelos de IA tradicionales fueran más grandes y lentos, mientras que la precisión adicional era a menudo mínima en comparación con el aumento significativo en la potencia de cálculo requerida.

EfficientNet adoptó un enfoque diferente. Aumentó la profundidad (número de capas), la anchura (número de unidades en cada capa) y la resolución de la imagen (el nivel de detalle de las imágenes de entrada) juntos de forma equilibrada. Este método, llamado escalado compuesto, utiliza de forma fiable toda la potencia de procesamiento disponible. El resultado final es un modelo más pequeño y rápido que puede funcionar mejor que los modelos más antiguos como ResNet o DenseNet.

Hoy en día, los modelos de visión artificial más recientes como Ultralytics YOLO11 ofrecen mayor precisión, velocidad y eficiencia. Aun así, EfficientNet sigue siendo un hito importante que influyó en el diseño de muchas arquitecturas avanzadas. 

En este artículo, desglosaremos EfficientNet en cinco minutos, cubriendo cómo funciona, qué lo hace único y por qué sigue siendo importante en la visión artificial. ¡Empecemos!

¿Qué es EfficientNet?

Antes de que se diseñara EfficientNet, la mayoría de los modelos de reconocimiento de imágenes mejoraban la precisión ajustando sus capas o aumentando el tamaño de la imagen de entrada para capturar más detalles. Si bien estas estrategias mejoraron los resultados, también hicieron que los modelos fueran más pesados y exigentes. Esto significaba que necesitaban más memoria y mejor hardware. 

En lugar de cambiar las capas individuales, EfficientNet escala la profundidad, el ancho y la resolución de la imagen juntos utilizando un método llamado escalado compuesto. Este enfoque permite que el modelo crezca de manera eficiente sin sobrecargar ningún aspecto individual.

La arquitectura EfficientNet procesa las imágenes a través de una serie de bloques, cada uno construido a partir de módulos más pequeños. El número de módulos en cada bloque depende del tamaño del modelo. 

Fig. 1. Los componentes básicos de EfficientNet. (Fuente)

Las versiones más pequeñas utilizan menos módulos, mientras que las versiones más grandes repiten los módulos con más frecuencia. Este diseño flexible permite a EfficientNet ofrecer alta precisión y eficiencia en una amplia gama de aplicaciones, desde dispositivos móviles hasta sistemas a gran escala.

Cómo funciona el escalado compuesto

El método de escalado compuesto amplía la profundidad, el ancho y la resolución de la imagen de un modelo, pero los mantiene en equilibrio. Esto hace posible utilizar la potencia de cálculo de forma eficiente. La serie comienza con un modelo de línea base más pequeño llamado EfficientNet-B0, que sirve como base para todas las demás versiones.

Desde B0, los modelos se escalan en variantes más grandes llamadas EfficientNet-B1 hasta EfficientNet-B7. Con cada paso, la red gana capas adicionales, aumenta el número de canales (unidades utilizadas para el procesamiento) y maneja imágenes de entrada de mayor resolución. La cantidad de crecimiento en cada paso está determinada por un parámetro llamado coeficiente compuesto, que asegura que la profundidad, el ancho y la resolución aumenten en proporciones fijas en lugar de independientemente.

Fig. 2. El escalado compuesto aumenta el ancho, la profundidad y la resolución de imagen de un modelo. (Fuente)

Arquitectura EfficientNet

A continuación, echemos un vistazo a la arquitectura de EfficientNet. 

Se basa en MobileNetV2, un modelo de visión artificial ligero optimizado para dispositivos móviles e integrados. En su núcleo se encuentra el bloque Mobile Inverted Bottleneck Convolution (MBConv), una capa especial que procesa los datos de la imagen como una convolución estándar, pero con menos cálculos. Este bloque hace que el modelo sea rápido y más eficiente en cuanto a memoria.

Dentro de cada uno de los bloques MBConv hay un módulo de "squeeze-and-excitation" (SE). Este módulo ajusta la fuerza de diferentes canales en la red. Aumenta la fuerza de los canales esenciales y reduce la fuerza de otros. El módulo ayuda a la red a centrarse en las características más importantes de una imagen, ignorando el resto. El modelo EfficientNet también utiliza una función de activación Swish (una función matemática que ayuda a la red a aprender patrones), lo que le ayuda a detectar patrones en las imágenes mejor que los métodos antiguos. 

Más allá de esto, utiliza DropConnect, donde algunas conexiones dentro de la red se desactivan aleatoriamente durante el entrenamiento. Este método de regularización estocástica (una técnica de aleatorización para evitar que el modelo memorice los datos de entrenamiento en lugar de generalizar) reduce el sobreajuste al obligar a la red a aprender representaciones de características más robustas (patrones más fuertes y generales en los datos) que se transfieren mejor a datos no vistos.

Fig. 3. Arquitectura de EfficientNet-B0 (Fuente)

Una breve descripción de las variantes del modelo EfficientNet

Ahora que tenemos una mejor comprensión de cómo funcionan los modelos EfficientNet, analicemos las diferentes variantes del modelo. 

Los modelos EfficientNet escalan de B0 a B7, comenzando con B0 como la línea base que equilibra velocidad y precisión. Cada versión aumenta la profundidad, el ancho y la resolución de la imagen, mejorando la precisión. Sin embargo, también exigen más potencia computacional, desde el B1 y el B2 hasta el B6 y el B7 de alto rendimiento. 

Si bien los modelos EfficientNet-B3 y EfficientNet-B4 logran un equilibrio para imágenes más grandes, B5 se elige a menudo para conjuntos de datos complejos que requieren precisión. Más allá de estos modelos, el modelo más reciente, EfficientNet V2, puede mejorar la velocidad de entrenamiento, manejar mejor los conjuntos de datos pequeños y está optimizado para hardware moderno.

Aplicaciones de EfficientNet

EfficientNet puede producir resultados precisos utilizando menos memoria y potencia de procesamiento que muchos otros modelos. Esto lo hace útil en muchos campos, desde la investigación científica hasta los productos que la gente usa a diario.

Análisis de imágenes médicas

Las imágenes médicas, como las tomografías computarizadas de los pulmones, a menudo contienen detalles sutiles que son críticos para un diagnóstico preciso. Los modelos de IA pueden ayudar a analizar estas imágenes para descubrir patrones que podrían ser difíciles de detectar para los humanos. Una adaptación de EfficientNet para este propósito es MONAI (Medical Open Network for AI) EfficientNet, que está diseñado específicamente para el análisis de imágenes médicas.

Basándose en la arquitectura de EfficientNet, los investigadores también han desarrollado Lung-EffNet, un modelo que clasifica las tomografías computarizadas de pulmón para detectar tumores. Puede clasificar los tumores como benignos, malignos o normales, logrando una precisión reportada de más del 99% en entornos experimentales.

Fig. 4. Clasificación de imágenes de tumores mediante Lung-EffNet. (Fuente)

Detección de objetos en tiempo real

La detección de objetos es el proceso de encontrar objetos en una imagen y determinar sus ubicaciones. Es una parte clave de aplicaciones como los sistemas de seguridad, los coches autónomos y los drones.

EfficientNet se volvió importante en esta área porque ofrecía una forma muy eficiente de extraer características de las imágenes. Su método de escalado de profundidad, anchura y resolución demostró cómo los modelos podían ser precisos sin ser demasiado pesados o lentos. Esta es la razón por la que muchos sistemas de detección, como EfficientDet, utilizan EfficientNet como su backbone.

Los modelos más nuevos, como Ultralytics YOLO11, comparten el mismo objetivo de combinar velocidad con precisión. Esta tendencia hacia modelos eficientes se vio fuertemente influenciada por ideas de arquitecturas como EfficientNet.

Pros y contras de EfficientNet

Aquí hay algunos beneficios de usar EfficientNet en proyectos de visión artificial:

  • Alta precisión con menos parámetros: EfficientNet puede ofrecer una precisión similar o mejor que los modelos más antiguos, como ResNet o DenseNet. Sin embargo, utiliza menos parámetros, lo que hace que sea más rápido de entrenar y más fácil de implementar.
  • Familia de modelos escalable: Desde B0 hasta B7, puede elegir una versión que se ajuste a sus requisitos de hardware y precisión sin cambiar la red de referencia.
  • Bueno para el aprendizaje por transferencia: EfficientNet puede ofrecer un rendimiento fiable del modelo para el aprendizaje por transferencia, que es un proceso de reentrenamiento de un modelo preentrenado para una tarea personalizada. Puede funcionar como base para una variedad de tareas de visión artificial. También ha mostrado resultados sólidos cuando se ajusta con precisión. Por ejemplo, logró una precisión de última generación en CIFAR-100, un conjunto de datos de clasificación de imágenes ampliamente utilizado, con significativamente menos parámetros que los modelos anteriores.

Si bien existen muchos beneficios relacionados con el uso de EfficientNet, estas son algunas de las limitaciones de EfficientNet que debe tener en cuenta:

  • Requiere más memoria: Las versiones como EfficientNet-B6 y EfficientNet-B7 requieren mucha memoria de GPU.
  • Escalado ajustado para ImageNet: Los ajustes de escalado se diseñaron para el conjunto de datos ImageNet, por lo que el rendimiento puede disminuir en conjuntos de datos muy diferentes sin un ajuste fino. Esto es especialmente cierto para conjuntos de datos pequeños, ya que la arquitectura y el escalado de EfficientNet se diseñaron para un conjunto de datos grande y diverso como ImageNet, que proporciona suficientes datos para justificar su profundidad y anchura.
  • Más lento en algunos hardwares: EfficientNet utiliza capas llamadas MBConv que están diseñadas para la eficiencia en hardware moderno. En GPUs o CPUs más antiguas, estas capas pueden ejecutarse más lentamente.

Conclusiones clave

EfficientNet cambió la forma en que crecen los modelos de visión artificial al mantener el equilibrio entre la profundidad, la anchura y la resolución de la imagen. Sigue siendo un modelo importante y también ha influido en arquitecturas más nuevas. En particular, ocupa un lugar significativo en la historia de la visión artificial.

Únase a nuestra comunidad y a nuestro repositorio de GitHub para explorar más sobre la IA. Consulte nuestras páginas de soluciones para leer sobre la IA en la atención médica y la visión artificial en la automoción. Descubra nuestras opciones de licencia y comience a construir con visión artificial hoy mismo.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles