Was ist EfficientNet? Ein kurzer Überblick.

Abirami Vina

6 Minuten lesen

August 29, 2025

Verstehen Sie die EfficientNet-Architektur und die Magie der Verbundskalierung! Entdecken Sie EfficientNet B0-B7 für erstklassige Bildklassifizierung und Segmentierungseffizienz.

Im Jahr 2019 stellten Forscher von Google AI EfficientNet vor, ein hochmodernes Computer-Vision-Modell zur Erkennung von Objekten und Mustern in Bildern. Es wurde in erster Linie für die Bildklassifizierung entwickelt, bei der ein Bild einer von mehreren vordefinierten Kategorien zugewiesen wird. Heute dient EfficientNet jedoch auch als Rückgrat für komplexere Aufgaben wie Objekterkennung, Segmentierung und Transferlernen.

Vor EfficientNet versuchten solche Modelle des maschinellen Lernens und der künstlichen Intelligenz, die Genauigkeit zu verbessern, indem sie mehr Schichten hinzufügten oder die Größe dieser Schichten erhöhten. Schichten sind die Schritte in einem neuronalen Netzwerkmodell (eine Art Deep-Learning-Modell nach dem Vorbild des menschlichen Gehirns), die Daten verarbeiten, um Muster zu lernen und die Genauigkeit zu verbessern. 

Diese Änderungen führten zu einem Zielkonflikt, da herkömmliche KI-Modelle größer und langsamer wurden, während die zusätzliche Genauigkeit im Vergleich zu der erheblich höheren erforderlichen Rechenleistung oft minimal war.

EfficientNet verfolgte einen anderen Ansatz. Es erhöht die Tiefe (Anzahl der Schichten), die Breite (Anzahl der Einheiten in jeder Schicht) und die Bildauflösung (Detailgrad der Eingabebilder) auf ausgewogene Weise. Diese Methode, Compound Scaling genannt, nutzt zuverlässig die gesamte verfügbare Verarbeitungsleistung. Das Endergebnis ist ein kleineres und schnelleres Modell, das bessere Leistungen erbringen kann als ältere Modelle wie ResNet oder DenseNet.

Heute bieten neuere Computer-Vision-Modelle wie Ultralytics YOLO11 eine höhere Genauigkeit, Geschwindigkeit und Effizienz. Dennoch bleibt EfficientNet ein wichtiger Meilenstein, der das Design vieler moderner Architekturen beeinflusst hat. 

In diesem Artikel werden wir EfficientNet in fünf Minuten erklären, wie es funktioniert, was es einzigartig macht und warum es in der Computer Vision immer noch wichtig ist. Legen wir los!

Was ist EfficientNet?

Bevor EfficientNet entwickelt wurde, verbesserten die meisten Bilderkennungsmodelle ihre Genauigkeit, indem sie ihre Ebenen anpassten oder die Größe des Eingabebildes erhöhten, um mehr Details zu erfassen. Diese Strategien verbesserten zwar die Ergebnisse, aber sie machten die Modelle auch schwerer und anspruchsvoller. Dies bedeutete, dass sie mehr Speicher und bessere Hardware benötigten. 

Anstatt einzelne Ebenen zu verändern, skaliert EfficientNet Tiefe, Breite und Bildauflösung gemeinsam mit einer Methode, die Compound Scaling genannt wird. Dieser Ansatz ermöglicht ein effizientes Wachstum des Modells, ohne einen einzelnen Aspekt zu überlasten.

Die EfficientNet-Architektur verarbeitet Bilder durch eine Reihe von Blöcken, die jeweils aus kleineren Modulen bestehen. Die Anzahl der Module in jedem Block hängt von der Modellgröße ab. 

Abbildung 1. Die Bausteine von EfficientNet.(Quelle)

Kleinere Versionen verwenden weniger Module, während größere Versionen die Module häufiger wiederholen. Dieses flexible Design ermöglicht es EfficientNet, hohe Genauigkeit und Effizienz in einer Vielzahl von Anwendungen zu liefern, von mobilen Geräten bis hin zu großen Systemen.

So funktioniert die Verbundskalierung

Die Compound-Scaling-Methode erweitert die Tiefe, Breite und Bildauflösung eines Modells, hält sie aber im Gleichgewicht. Dies ermöglicht eine effiziente Nutzung der Rechenleistung. Die Serie beginnt mit einem kleineren Basismodell namens EfficientNet-B0, das als Grundlage für alle anderen Versionen dient.

Von B0 aus skalieren die Modelle zu größeren Varianten mit den Bezeichnungen EfficientNet-B1 bis EfficientNet-B7. Mit jedem Schritt erhält das Netz zusätzliche Schichten, erhöht die Anzahl der Kanäle (für die Verarbeitung verwendete Einheiten) und verarbeitet Eingabebilder mit höherer Auflösung. Der Umfang des Wachstums bei jedem Schritt wird durch einen Parameter bestimmt, der als Verbundkoeffizient bezeichnet wird und sicherstellt, dass Tiefe, Breite und Auflösung in einem festen Verhältnis und nicht unabhängig voneinander zunehmen.

Abbildung 2. Compound Scaling erhöht die Breite, Tiefe und Bildauflösung eines Modells.(Quelle)

EfficientNet Architektur

Werfen wir nun einen Blick auf die Architektur von EfficientNet. 

Es baut auf MobileNetV2 auf, einem leichtgewichtigen Computer-Vision-Modell, das für mobile und eingebettete Geräte optimiert ist. Kernstück ist der Block Mobile Inverted Bottleneck Convolution (MBConv), eine spezielle Schicht, die Bilddaten wie eine Standardfaltung verarbeitet, jedoch mit weniger Berechnungen. Dieser Block macht das Modell sowohl schnell als auch speichereffizienter.

In jedem der MBConv-Blöcke befindet sich ein Squeeze-and-Excitation-Modul (SE). Dieses Modul passt die Stärke der verschiedenen Kanäle im Netz an. Es verstärkt die Stärke der wichtigsten Kanäle und reduziert die Stärke anderer Kanäle. Das Modul hilft dem Netzwerk, sich auf die wichtigsten Merkmale in einem Bild zu konzentrieren und den Rest zu vernachlässigen. Das EfficientNet-Modell verwendet auch eine Swish-Aktivierungsfunktion (eine mathematische Funktion, die dem Netzwerk hilft, Muster zu lernen), die es ihm ermöglicht, Muster in Bildern besser zu erkennen als ältere Methoden. 

Darüber hinaus verwendet es DropConnect, wobei einige Verbindungen innerhalb des Netzes während des Trainings nach dem Zufallsprinzip abgeschaltet werden. Diese stochastische Regularisierungsmethode (eine Randomisierungstechnik, die verhindert, dass sich das Modell die Trainingsdaten merkt, anstatt sie zu verallgemeinern) reduziert die Überanpassung, indem sie das Netzwerk zwingt, robustere Merkmalsrepräsentationen (stärkere, allgemeinere Muster in den Daten) zu lernen, die sich besser auf ungesehene Daten übertragen lassen.

Abb. 3. Architektur von EfficientNet-B0(Quelle)

Ein kurzer Überblick über die Modellvarianten von EfficientNet

Nachdem wir nun ein besseres Verständnis für die Funktionsweise der EfficientNet-Modelle haben, wollen wir die verschiedenen Modellvarianten diskutieren. 

Die EfficientNet-Modelle sind von B0 bis B7 skalierbar, wobei B0 die Basisversion darstellt, die ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit bietet. Jede Version erhöht die Tiefe, Breite und Bildauflösung und verbessert die Genauigkeit. Allerdings erfordern sie auch mehr Rechenleistung, von B1 und B2 bis zu den leistungsstarken B6 und B7. 

Während die Modelle EfficientNet-B3 und EfficientNet-B4 einen Ausgleich für größere Bilder schaffen, wird B5 häufig für komplexe Datensätze gewählt, die Präzision erfordern. Neben diesen Modellen kann das neueste Modell, EfficientNet V2, die Trainingsgeschwindigkeit erhöhen, kleine Datensätze besser verarbeiten und ist für moderne Hardware optimiert.

Anwendungen von EfficientNet

EfficientNet kann genaue Ergebnisse liefern und benötigt dabei weniger Speicher und Rechenleistung als viele andere Modelle. Das macht es in vielen Bereichen nützlich, von der wissenschaftlichen Forschung bis hin zu Produkten, die Menschen täglich benutzen.

Medizinische Bildanalyse

Medizinische Bilder, wie z. B. CT-Scans der Lunge, enthalten oft subtile Details, die für eine genaue Diagnose entscheidend sind. KI-Modelle können bei der Analyse dieser Bilder helfen, um Muster aufzudecken, die für den Menschen schwer zu erkennen sind. Eine Anpassung von EfficientNet für diesen Zweck ist MONAI (Medical Open Network for AI) EfficientNet, das speziell für die medizinische Bildanalyse entwickelt wurde.

Aufbauend auf der Architektur von EfficientNet haben die Forscher auch Lung-EffNet entwickelt, ein Modell, das CT-Scans der Lunge klassifiziert, um Tumore zu erkennen. Es kann Tumore als gutartig, bösartig oder normal einstufen und erreicht in Versuchen eine gemeldete Genauigkeit von über 99 %.

Abb. 4. Bildklassifizierung von Tumoren mit Lung-EffNet.(Quelle)

Objekterkennung in Echtzeit

Unter Objekterkennung versteht man das Auffinden von Objekten in einem Bild und die Bestimmung ihrer Position. Sie ist ein wichtiger Bestandteil von Anwendungen wie Sicherheitssystemen, selbstfahrenden Autos und Drohnen.

EfficientNet wurde in diesem Bereich wichtig, weil es eine sehr effiziente Methode zur Extraktion von Merkmalen aus Bildern bot. Seine Methode zur Skalierung von Tiefe, Breite und Auflösung zeigte, wie Modelle genau sein können, ohne zu schwer oder langsam zu sein. Aus diesem Grund verwenden viele Erkennungssysteme, wie EfficientDet, EfficientNet als Grundlage.

Neuere Modelle, wie z. B. Ultralytics YOLO11, verfolgen das gleiche Ziel, nämlich Geschwindigkeit mit Genauigkeit zu verbinden. Dieser Trend zu effizienten Modellen wurde stark durch Ideen von Architekturen wie EfficientNet beeinflusst.

Vor- und Nachteile von EfficientNet

Hier sind einige Vorteile der Verwendung von EfficientNet in Computer Vision Projekten:

  • Hohe Genauigkeit mit weniger Parametern: EfficientNet kann eine ähnliche oder bessere Genauigkeit liefern als ältere Modelle wie ResNet oder DenseNet. Es verwendet jedoch weniger Parameter, wodurch es schneller trainiert und einfacher eingesetzt werden kann.
  • Skalierbare Modellfamilie: Von B0 bis B7 können Sie eine Version wählen, die Ihren Hardware- und Präzisionsanforderungen entspricht, ohne das Basisnetz zu verändern.
  • Gut für Transfer-Lernen: EfficientNet kann eine zuverlässige Modellleistung für das Transfer-Lernen liefern, bei dem ein zuvor trainiertes Modell für eine individuelle Aufgabe umgeschult wird. Es kann als Grundgerüst für eine Vielzahl von Computer-Vision-Aufgaben eingesetzt werden. Auch bei der Feinabstimmung hat es gute Ergebnisse gezeigt. So erreichte es beispielsweise bei CIFAR-100, einem weit verbreiteten Bildklassifizierungsdatensatz, mit deutlich weniger Parametern als frühere Modelle die höchste Genauigkeit.

Obwohl die Nutzung von EfficientNet viele Vorteile mit sich bringt, sollten Sie einige der Einschränkungen von EfficientNet beachten:

  • Benötigt mehr Speicher: Versionen wie EfficientNet-B6 und EfficientNet-B7 benötigen eine Menge GPU-Speicher.
  • Die Skalierung wurde für ImageNet angepasst: Die Skalierungseinstellungen wurden für den ImageNet-Datensatz entwickelt, so dass die Leistung bei sehr unterschiedlichen Datensätzen ohne Feinabstimmung sinken kann. Dies gilt insbesondere für kleine Datensätze, da die Architektur und Skalierung von EfficientNet für einen großen und vielfältigen Datensatz wie ImageNet entwickelt wurde, der genügend Daten liefert, um seine Tiefe und Breite zu rechtfertigen.
  • Langsamer auf mancher Hardware: EfficientNet verwendet Schichten namens MBConv, die für Effizienz auf moderner Hardware ausgelegt sind. Auf älteren GPUs oder CPUs können diese Schichten langsamer laufen.

Die wichtigsten Erkenntnisse

EfficientNet veränderte die Entwicklung von Computer-Vision-Modellen, indem es Tiefe, Breite und Bildauflösung im Gleichgewicht hielt. Es ist immer noch ein wichtiges Modell und hat auch neuere Architekturen beeinflusst. Insbesondere nimmt es einen bedeutenden Platz in der Geschichte der Computer Vision ein.

Treten Sie unserer Community und unserem GitHub-Repository bei, um mehr über KI zu erfahren. Auf unseren Lösungsseiten erfahren Sie mehr über KI im Gesundheitswesen und Computer Vision in der Automobilindustrie. Entdecken Sie unsere Lizenzierungsoptionen und beginnen Sie noch heute mit der Entwicklung von Computer Vision!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert