Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Was ist EfficientNet? Ein kurzer Überblick.

Abirami Vina

6 Minuten Lesezeit

29. August 2025

Verstehen Sie die EfficientNet-Architektur und ihre Compound-Scaling-Magie! Entdecken Sie EfficientNet B0-B7 für erstklassige Bildklassifizierungs- und Segmentierungseffizienz.

Im Jahr 2019 stellten Forscher von Google AI EfficientNet vor, ein hochmodernes Computer-Vision-Modell, das entwickelt wurde, um Objekte und Muster in Bildern zu erkennen. Es wurde hauptsächlich für die Bildklassifizierung entwickelt, bei der ein Bild einer von mehreren vordefinierten Kategorien zugeordnet wird. Heute dient EfficientNet jedoch auch als Backbone für komplexere Aufgaben wie Objekterkennung, Segmentierung und Transferlernen.

Vor EfficientNet versuchten solche Modelle für maschinelles Lernen und Vision AI, die Genauigkeit zu verbessern, indem sie mehr Schichten hinzufügten oder die Größe dieser Schichten erhöhten. Schichten sind die Schritte in einem neuronalen Netzwerkmodell (einer Art Deep-Learning-Modell, das vom menschlichen Gehirn inspiriert ist), die Daten verarbeiten, um Muster zu lernen und die Genauigkeit zu verbessern. 

Diese Änderungen führten zu einem Kompromiss: Traditionelle KI-Modelle wurden größer und langsamer, während die zusätzliche Genauigkeit oft minimal war im Vergleich zum signifikant höheren Bedarf an Rechenleistung.

EfficientNet verfolgte einen anderen Ansatz. Es erhöhte die Tiefe (Anzahl der Schichten), die Breite (Anzahl der Einheiten in jeder Schicht) und die Bildauflösung (den Detailgrad der Eingabebilder) zusammen auf ausgewogene Weise. Diese Methode, die als Compound Scaling bezeichnet wird, nutzt zuverlässig die gesamte verfügbare Rechenleistung. Das Endergebnis ist ein kleineres und schnelleres Modell, das eine bessere Leistung erbringen kann als ältere Modelle wie ResNet oder DenseNet.

Heute bieten neuere Computer-Vision-Modelle wie Ultralytics YOLO11 eine höhere Genauigkeit, Geschwindigkeit und Effizienz. Dennoch bleibt EfficientNet ein wichtiger Meilenstein, der das Design vieler fortschrittlicher Architekturen beeinflusst hat. 

In diesem Artikel werden wir EfficientNet in fünf Minuten aufschlüsseln und dabei behandeln, wie es funktioniert, was es einzigartig macht und warum es in der Computer Vision immer noch wichtig ist. Lass uns anfangen!

Was ist EfficientNet?

Vor der Entwicklung von EfficientNet verbesserten die meisten Modelle zur Bilderkennung ihre Genauigkeit, indem sie ihre Schichten anpassten oder die Größe des Eingangsbildes erhöhten, um mehr Details zu erfassen. Diese Strategien verbesserten zwar die Ergebnisse, machten die Modelle aber auch schwerer und anspruchsvoller. Das bedeutete, dass sie mehr Speicher und bessere Hardware benötigten. 

Anstatt einzelne Schichten zu verändern, skaliert EfficientNet Tiefe, Breite und Bildauflösung zusammen mit einer Methode, die als Compound Scaling bezeichnet wird. Dieser Ansatz ermöglicht es dem Modell, effizient zu wachsen, ohne einen einzelnen Aspekt zu überlasten.

Die EfficientNet-Architektur verarbeitet Bilder durch eine Reihe von Blöcken, die jeweils aus kleineren Modulen aufgebaut sind. Die Anzahl der Module in jedem Block hängt von der Modellgröße ab. 

Abb. 1. Die Bausteine von EfficientNet. (Quelle)

Kleinere Versionen verwenden weniger Module, während größere Versionen Module häufiger wiederholen. Dieses flexible Design ermöglicht es EfficientNet, eine hohe Genauigkeit und Effizienz in einer Vielzahl von Anwendungen zu liefern, von mobilen Geräten bis hin zu großen Systemen.

Wie Compound Scaling funktioniert

Die Compound-Scaling-Methode erweitert die Tiefe, Breite und Bildauflösung eines Modells, hält sie aber im Gleichgewicht. Dies ermöglicht eine effiziente Nutzung der Rechenleistung. Die Serie beginnt mit einem kleineren Basismodell namens EfficientNet-B0, das als Grundlage für alle anderen Versionen dient.

Ausgehend von B0 skalieren die Modelle in größere Varianten namens EfficientNet-B1 bis EfficientNet-B7. Mit jedem Schritt erhält das Netzwerk zusätzliche Schichten, erhöht die Anzahl der Kanäle (Einheiten zur Verarbeitung) und verarbeitet höherauflösende Eingangsbilder. Das Ausmaß des Wachstums bei jedem Schritt wird durch einen Parameter namens Compound Coefficient bestimmt, der sicherstellt, dass Tiefe, Breite und Auflösung in festen Proportionen und nicht unabhängig voneinander zunehmen.

Abb. 2. Compound Scaling erhöht die Breite, Tiefe und Bildauflösung eines Modells. (Quelle)

EfficientNet-Architektur

Als Nächstes wollen wir uns die Architektur von EfficientNet ansehen. 

Sie baut auf MobileNetV2 auf, einem schlanken Computer Vision Modell, das für mobile und eingebettete Geräte optimiert ist. Im Kern befindet sich der Mobile Inverted Bottleneck Convolution (MBConv) Block, eine spezielle Schicht, die Bilddaten wie eine Standard-Convolution verarbeitet, aber mit weniger Berechnungen. Dieser Block macht das Modell sowohl schnell als auch speichereffizienter.

Im Inneren jedes MBConv-Blocks befindet sich ein Squeeze-and-Excitation (SE)-Modul. Dieses Modul passt die Stärke verschiedener Kanäle im Netzwerk an. Es verstärkt die Stärke wichtiger Kanäle und reduziert die Stärke anderer. Das Modul hilft dem Netzwerk, sich auf die wichtigsten Merkmale in einem Bild zu konzentrieren und den Rest zu vernachlässigen. Das EfficientNet-Modell verwendet auch eine Swish-Aktivierungsfunktion (eine mathematische Funktion, die dem Netzwerk hilft, Muster zu lernen), die ihm hilft, Muster in Bildern besser zu erkennen als ältere Methoden. 

Darüber hinaus verwendet es DropConnect, wobei einige Verbindungen innerhalb des Netzwerks während des Trainings zufällig abgeschaltet werden. Diese stochastische Regularisierungsmethode (eine Randomisierungstechnik, um zu verhindern, dass das Modell Trainingsdaten auswendig lernt, anstatt zu generalisieren) reduziert Overfitting, indem sie das Netzwerk zwingt, robustere Feature-Repräsentationen (stärkere, allgemeinere Muster in den Daten) zu erlernen, die sich besser auf ungesehene Daten übertragen lassen.

Abb. 3. Architektur von EfficientNet-B0 (Quelle)

Ein kurzer Überblick über die Modellvarianten von EfficientNet

Nachdem wir nun ein besseres Verständnis der Funktionsweise von EfficientNet-Modellen haben, wollen wir die verschiedenen Modellvarianten besprechen. 

EfficientNet-Modelle skalieren von B0 bis B7, wobei B0 als Baseline beginnt, die Geschwindigkeit und Genauigkeit ausbalanciert. Jede Version erhöht Tiefe, Breite und Bildauflösung und verbessert so die Genauigkeit. Sie erfordern jedoch auch mehr Rechenleistung, von B1 und B2 bis hin zu den leistungsstarken B6 und B7. 

Während die Modelle EfficientNet-B3 und EfficientNet-B4 ein ausgewogenes Verhältnis für größere Bilder bieten, wird B5 oft für komplexe Datensätze gewählt, die Präzision erfordern. Über diese Modelle hinaus kann das neueste Modell, EfficientNet V2, die Trainingsgeschwindigkeit verbessern, besser mit kleinen Datensätzen umgehen und ist für moderne Hardware optimiert.

Anwendungen von EfficientNet

EfficientNet kann genaue Ergebnisse liefern und gleichzeitig weniger Speicher und Rechenleistung verbrauchen als viele andere Modelle. Dies macht es in vielen Bereichen nützlich, von der wissenschaftlichen Forschung bis hin zu Produkten, die Menschen täglich verwenden.

Medizinische Bildanalyse

Medizinische Bilder, wie z. B. CT-Scans der Lunge, enthalten oft subtile Details, die für eine genaue Diagnose entscheidend sind. KI-Modelle können bei der Analyse dieser Bilder helfen, um Muster aufzudecken, die für den Menschen schwer zu erkennen sind. Eine Anpassung von EfficientNet für diesen Zweck ist MONAI (Medical Open Network for AI) EfficientNet, das speziell für die medizinische Bildanalyse entwickelt wurde.

Aufbauend auf der Architektur von EfficientNet haben Forscher auch Lung-EffNet entwickelt, ein Modell, das Lungen-CT-Scans zur Erkennung von Tumoren klassifiziert. Es kann Tumoren als gutartig, bösartig oder normal kategorisieren und erreicht in experimentellen Umgebungen eine Genauigkeit von über 99 %.

Abb. 4. Bildklassifizierung von Tumoren mit Lung-EffNet. (Quelle)

Echtzeit-Objekterkennung

Objekterkennung ist der Prozess, Objekte in einem Bild zu finden und ihre Positionen zu bestimmen. Sie ist ein wichtiger Bestandteil von Anwendungen wie Sicherheitssystemen, selbstfahrenden Autos und Drohnen.

EfficientNet wurde in diesem Bereich wichtig, weil es eine sehr effiziente Möglichkeit bot, Merkmale aus Bildern zu extrahieren. Die Methode zur Skalierung von Tiefe, Breite und Auflösung zeigte, wie Modelle genau sein können, ohne zu schwerfällig oder langsam zu sein. Aus diesem Grund verwenden viele Erkennungssysteme, wie z. B. EfficientDet, EfficientNet als ihr Backbone.

Neuere Modelle, wie Ultralytics YOLO11, verfolgen das gleiche Ziel, Geschwindigkeit mit Genauigkeit zu kombinieren. Dieser Trend zu effizienten Modellen wurde stark von Ideen aus Architekturen wie EfficientNet beeinflusst.

Vor- und Nachteile von EfficientNet

Hier sind einige Vorteile der Verwendung von EfficientNet in Computer-Vision-Projekten:

  • Hohe Genauigkeit mit weniger Parametern: EfficientNet kann eine ähnliche oder bessere Genauigkeit liefern als ältere Modelle wie ResNet oder DenseNet. Es verwendet jedoch weniger Parameter, wodurch es schneller zu trainieren und einfacher bereitzustellen ist.
  • Skalierbare Modellfamilie: Von B0 bis B7 können Sie eine Version auswählen, die Ihren Hardware- und Präzisionsanforderungen entspricht, ohne das Basisnetzwerk zu verändern.
  • Gut für Transfer Learning: EfficientNet kann eine zuverlässige Modellleistung für Transfer Learning bieten. Dabei wird ein vortrainiertes Modell für eine spezifische Aufgabe neu trainiert. Es kann als Backbone für eine Vielzahl von Computer-Vision-Aufgaben dienen und hat auch beim Fine-Tuning starke Ergebnisse gezeigt. Zum Beispiel erreichte es eine hochmoderne Genauigkeit auf CIFAR-100, einem weit verbreiteten Bildklassifizierungs-Datensatz, mit deutlich weniger Parametern als frühere Modelle.

Obwohl die Verwendung von EfficientNet viele Vorteile bietet, sind hier einige der Einschränkungen von EfficientNet, die Sie beachten sollten:

  • Benötigt mehr Speicher: Versionen wie EfficientNet-B6 und EfficientNet-B7 benötigen viel GPU-Speicher.
  • Auf ImageNet abgestimmte Skalierung: Die Skalierungseinstellungen wurden für den ImageNet-Datensatz entwickelt, sodass die Leistung bei sehr unterschiedlichen Datensätzen ohne Feinabstimmung sinken kann. Dies gilt insbesondere für kleine Datensätze, da die Architektur und Skalierung von EfficientNet für einen großen und vielfältigen Datensatz wie ImageNet konzipiert wurden, der genügend Daten liefert, um seine Tiefe und Breite zu rechtfertigen.
  • Langsamer auf mancher Hardware: EfficientNet verwendet Schichten namens MBConv, die auf Effizienz auf moderner Hardware ausgelegt sind. Auf älteren GPUs oder CPUs können diese Schichten langsamer laufen.

Wesentliche Erkenntnisse

EfficientNet veränderte die Art und Weise, wie Computer-Vision-Modelle wachsen, indem es Tiefe, Breite und Bildauflösung im Gleichgewicht hielt. Es ist immer noch ein wichtiges Modell und hat auch neuere Architekturen beeinflusst. Insbesondere nimmt es einen bedeutenden Platz in der Geschichte der Computer Vision ein.

Treten Sie unserer Community und unserem GitHub-Repository bei, um mehr über KI zu erfahren. Auf unseren Lösungsseiten finden Sie Informationen zu KI im Gesundheitswesen und Computer Vision in der Automobilindustrie. Entdecken Sie unsere Lizenzoptionen und beginnen Sie noch heute mit der Entwicklung von Computer Vision!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert