Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Sigmoid-

Entdecken Sie die Leistungsfähigkeit der Sigmoid-Funktion in der KI. Erfahren Sie, wie sie Nichtlinearität ermöglicht, die binäre Klassifizierung unterstützt und ML-Fortschritte vorantreibt!

Die Sigmoid-Funktion ist eine grundlegende Aktivierungsfunktion, die in den Bereichen des maschinellen Lernens (ML) und tiefes Lernen (DL). Mathematisch dargestellt als logistische Funktion dargestellt, zeichnet sie sich durch ihre ausgeprägte "S"-förmige Kurve, die als Sigmoid-Kurve bekannt ist. Die Hauptfunktion von Sigmoid ist die Umwandlung einer beliebigen in einen Wert im Bereich zwischen 0 und 1 umzuwandeln. Diese Zerlegungseigenschaft macht sie besonders nützlich für Modelle, die Wahrscheinlichkeiten vorhersagen Wahrscheinlichkeiten vorhersagen müssen, da die Ausgabe direkt als die Wahrscheinlichkeit des Eintretens eines bestimmten Ereignisses interpretiert werden kann. Durch die Einführung von Nichtlinearität in ein neuronales Netz (NN) ermöglicht die Sigmoid-Funktion Modelle komplexe Datenmuster lernen, die über eine einfache lineare Regression hinausgehen.

Kernanwendungen der Künstlichen Intelligenz

Die Sigmoid-Funktion spielt bei bestimmten Netzarchitekturen und Aufgaben eine entscheidende Rolle, insbesondere wenn die Ausgaben als unabhängige Wahrscheinlichkeiten interpretiert werden müssen. Während sie in versteckten Schichten für tiefe Netze durch neuere Funktionen ersetzt wurde Netze ersetzt haben, bleibt sie in Ausgabeschichten für mehrere wichtige Anwendungen ein Standard.

  • Binäre Klassifizierung: Bei Aufgaben, bei denen das Ziel darin besteht, Eingaben in eine von zwei sich gegenseitig ausschließenden Klassen zu kategorisieren - z. B. bestimmen, ob eine E-Mail "Spam" oder "kein Spam" ist, ist die Sigmoid-Funktion die ideale Wahl für die letzte Schicht. Sie gibt einen einzelnen skalaren Wert zwischen 0 und 1 aus, der die Wahrscheinlichkeit der positiven Klasse darstellt. In der medizinischen Bildanalyse könnte ein Modell beispielsweise Modell beispielsweise 0,95 ausgeben, was bedeutet, dass eine erkannte Anomalie mit 95-prozentiger Wahrscheinlichkeit bösartig ist.
  • Multi-Label-Klassifikation: Im Gegensatz zu Mehrklassen-Aufgaben, bei denen eine Eingabe nur einer Kategorie angehört, kann eine Eingabe bei Multi-Label-Aufgaben mehrere Tags gleichzeitig haben. Zum Beispiel kann ein Objekterkennungsmodell wie Ultralytics YOLO11 möglicherweise detect Person "Person", "Fahrrad" und "Helm" in einem einzigen Bild erkennen. Hier wird Sigmoid unabhängig auf jeden Ausgangsknoten angewendet, so dass das Modell das Vorhandensein oder Nichtvorhandensein jeder Klasse vorhersagen kann, ohne die Wahrscheinlichkeiten auf eins zu summieren.
  • Rekurrentes Neuronales Netz (RNN) Gating: Sigmoid ist eine entscheidende Komponente in den Gating-Mechanismen von fortgeschrittenen Sequenzmodellen wie Long Short-Term Memory (LSTM) Netzwerke. In diesen Architekturen verwenden "Vergessensgatter" und "Eingabegatter" Sigmoid zur Ausgabe von Werte zwischen 0 (vollständiges Vergessen/Blockieren) und 1 (vollständiges Erinnern/Durchlassen) auszugeben und so den Informationsfluss Informationen im Laufe der Zeit. Dieser Mechanismus wird ausführlich in der klassischen Forschung über LSTMs erläutert.

Vergleich mit verwandten Aktivierungsfunktionen

Um neuronale Architekturen effektiv zu gestalten, ist es wichtig, Sigmoid von anderen Aktivierungsfunktionen zu unterscheiden, da jede einen anderen Zweck erfüllt.

  • Softmax: Während sich beide Funktionen auf die Wahrscheinlichkeit beziehen, wird Softmax für die Klassifizierung mehrerer Klassen verwendet, bei denen die Klassen sich gegenseitig ausschließen. Softmax stellt sicher, dass die Summe der Ergebnisse aller Klassen genau 1 beträgt, wodurch eine Wahrscheinlichkeits verteilung. Im Gegensatz dazu behandelt Sigmoid jede Ausgabe unabhängig und eignet sich daher für binäre oder Multi-Label Aufgaben.
  • ReLU (Rektifizierte Lineareinheit): ReLU ist die bevorzugte Aktivierungsfunktion für versteckte Schichten in modernen tiefen Netzen. Anders als Sigmoid, das bei 0 und 1 in die Sättigung geht und das Problem des verschwindenden Gradienten während Backpropagation das Problem des verschwindenden Gradienten aufwirft, erlaubt ReLU für positive Eingaben freier fließen. Dies beschleunigt das Training und die Konvergenz, wie es in den Stanford CS231n Kursunterlagen.
  • Tanh (Hyperbolischer Tangens): Die Tanh-Funktion ähnelt der Sigmoid-Funktion, bildet aber die Eingaben auf einen Bereich von -1 bis 1 ab. Da die Ausgabe Da die Ausgabe null-zentriert ist, wird Tanh in den versteckten Schichten älterer Architekturen und bestimmter RNNs oft gegenüber Sigmoid bevorzugt, da es die Datenzentrierung für nachfolgende Schichten erleichtert.

Beispiel für die Umsetzung

Das folgende Python demonstriert die Anwendung der Sigmoid-Funktion mit PyTorch. Dies ist eine gängige Operation zur Konvertierung von Modellrohdaten (Logits) in interpretierbare Wahrscheinlichkeiten.

import torch
import torch.nn as nn

# Raw outputs (logits) from a model for a binary or multi-label task
logits = torch.tensor([0.1, -2.5, 4.0])

# Apply the Sigmoid activation function
sigmoid = nn.Sigmoid()
probabilities = sigmoid(logits)

# Output values are squashed between 0 and 1
print(probabilities)
# Output: tensor([0.5250, 0.0759, 0.9820])

Für den Aufbau effektiver KI-Systeme ist es wichtig zu wissen, wann Sigmoid eingesetzt werden soll. Während es in tiefen versteckten Schichten Schichten aufgrund der Gradientensättigung Grenzen hat, bleibt es aufgrund seiner Fähigkeit, unabhängige Wahrscheinlichkeiten zu modellieren, relevant für Verlustfunktionsberechnungen und endgültigen Ausgabeschichten für eine breite Palette von Aufgaben.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten