Entdecken Sie, wie das rezeptive Feld definiert, was ein neuronales Netzwerk sieht. Erfahren Sie, wie Ultralytics den räumlichen Kontext optimiert, um detect aller Größen effektiv detect .
Im Bereich der Computervision (CV) und des Deep Learning bezieht sich das rezeptive Feld auf den spezifischen Bereich eines Eingabebildes, den ein bestimmtes Neuron in einem neuronalen Netzwerk (NN) „sieht“ oder analysiert. Konzeptionell funktioniert es ähnlich wie das Sichtfeld eines menschlichen Auges oder eines Kameraobjektivs. Es bestimmt, wie viel räumlichen Kontext ein Modell auf einer bestimmten Ebene wahrnehmen kann. Während die Daten durch ein Convolutional Neural Network (CNN) laufen, erweitert sich das rezeptive Feld in der Regel, sodass das System von der Identifizierung winziger lokaler Details – wie Kanten oder Ecken – zum Verständnis komplexer globaler Strukturen wie ganzer Objekte oder Szenen übergehen kann.
Die Größe und Tiefe des rezeptiven Feldes werden durch die Architektur des Netzwerks bestimmt. In den ersten Schichten haben Neuronen in der Regel ein kleines rezeptives Feld, das sich auf eine winzige Pixelgruppe konzentriert, um feinkörnige Texturen zu erfassen. Mit zunehmender Tiefe des Netzwerks führen Operationen wie Pooling-Schichten und Strided Convolutions eine effektive Downsampling der Merkmalskarten durch. Dieser Prozess ermöglicht es nachfolgenden Neuronen, Informationen aus einem viel größeren Teil der ursprünglichen Eingabe zu aggregieren.
Moderne Architekturen, darunter das hochmoderne Ultralytics , sind so konzipiert, dass sie diese Felder sorgfältig ausbalancieren. Ist das rezeptive Feld zu eng, kann das Modell möglicherweise große Objekte nicht erkennen, da es nicht die gesamte Form wahrnehmen kann. Umgekehrt kann es vorkommen, dass das Modell kleine Objekte übersieht, wenn das Feld zu breit ist, ohne dass die Auflösung beibehalten wird . Um diesem Problem zu begegnen, verwenden Ingenieure häufig dilatierte Faltungen (auch bekannt als atrous convolutions), um das rezeptive Feld zu erweitern, ohne die räumliche Auflösung zu verringern – eine Technik, die für hochpräzise Aufgaben wie die semantische Segmentierung unerlässlich ist.
Die Optimierung des rezeptiven Feldes ist entscheidend für den Erfolg verschiedener KI-Lösungen.
Um das Netzwerkdesign vollständig zu verstehen, ist es hilfreich, das rezeptive Feld von ähnlichen Begriffen zu unterscheiden:
Modernste Modelle wie das neuere YOLO26 nutzen Feature Pyramid Networks (FPN), um effektive rezeptive Felder für Objekte aller Größen beizubehalten . Das folgende Beispiel zeigt, wie man ein Modell lädt und eine Objekterkennung durchführt , wobei diese internen Architekturoptimierungen automatisch genutzt werden. Benutzer, die ihre eigenen Modelle mit optimierten Architekturen trainieren möchten, können die Ultralytics für eine nahtlose Datensatzverwaltung und Cloud-Training nutzen.
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()