Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Sigmoide

Scopri la potenza della funzione Sigmoid nell'IA. Scopri come abilita la non linearità, aiuta la classificazione binaria e guida i progressi dell'ML!

La funzione sigmoide è una funzione di attivazione funzione di attivazione ampiamente utilizzata nei campi dell'apprendimento automatico (ML) e apprendimento profondo (DL). Rappresentata matematicamente come una funzione logistica, è caratterizzata dalla sua curva a forma di "S", nota come curva sigmoide. La funzione principale della sigmoide è quella di trasformare qualsiasi numero valore reale in ingresso in un valore compreso tra 0 e 1. Questa proprietà di schiacciamento la rende eccezionalmente utile per i modelli che devono predire probabilità, in quanto l'output può essere interpretato direttamente come la probabilità che un evento specifico si verifichi. Introducendo la non linearità in una rete neurale (NN), la funzione Sigmoide permette ai modelli di apprendere modelli di apprendere modelli di dati complessi che vanno oltre la semplice regressione lineare.

Applicazioni fondamentali dell'intelligenza artificiale

La funzione sigmoide svolge un ruolo critico in architetture di rete e compiti specifici, in particolare quando le uscite devono essere interpretate come probabilità indipendenti. devono essere interpretati come probabilità indipendenti. Sebbene nuove funzioni l'abbiano sostituita negli strati nascosti delle reti profonde, rimane uno standard negli strati di uscita per diverse applicazioni reti profonde, rimane uno standard negli strati di uscita per diverse applicazioni chiave.

  • Classificazione binaria: Nei compiti in cui l'obiettivo è quello di classificare gli input in una delle due classi mutuamente esclusive, come ad esempio determinare se un'e-mail è "spam" o "non spam", la funzione sigmoide è la scelta ideale per il livello finale. finale. Essa produce un singolo valore scalare compreso tra 0 e 1, che rappresenta la probabilità della classe positiva. Ad esempio, nell'analisi delle immagini mediche, un potrebbe dare come risultato 0,95, indicando una fiducia del 95% che un'anomalia rilevata sia maligna.
  • Classificazione multi-etichetta: A differenza dei compiti multiclasse, in cui un input appartiene a una sola categoria, i compiti multietichetta permettono a un input di avere più etichette contemporaneamente. Per esempio, un modello di rilevamento degli oggetti come Ultralytics YOLO11 potrebbe dover detect una "persona", "bicicletta" e "casco" in una singola immagine. In questo caso, Sigmoid viene applicato indipendentemente a ciascun nodo di uscita, consentendo al modello di prevedere la presenza o l'assenza di ciascuna classe senza forzare le probabilità a sommarsi a una. senza forzare la somma delle probabilità a uno.
  • Rete neurale ricorrente (RNN) Gating: Sigmoid è un componente cruciale nei meccanismi di gating di modelli di sequenza avanzati come Memoria a breve termine (LSTM) reti. All'interno di queste architetture, le "porte di dimenticanza" e le "porte di ingresso" utilizzano la Sigmoide per emettere valori compresi tra 0 (completamente dimenticare/bloccare) e 1 (completamente ricordare/passare), regolando di fatto il flusso di informazioni nel tempo. informazioni nel tempo. Questo meccanismo è spiegato in modo approfondito nelle ricerca sugli LSTM.

Confronto con funzioni di attivazione correlate

Per progettare in modo efficace le architetture neurali, è importante distinguere la Sigmoid dalle altre funzioni di attivazione, poiché ciascuna di esse ha uno scopo distinto. ciascuna di esse serve a uno scopo distinto.

  • Softmax: Mentre entrambe le funzioni si riferiscono alla probabilità, Softmax viene utilizzato per la classificazione multiclasse in cui le classi sono mutuamente esclusive. Softmax assicura che i risultati di tutte le classi siano esattamente pari a 1, creando una distribuzione di probabilità. distribuzione di probabilità. Al contrario, Sigmoid tratta ogni uscita in modo indipendente, rendendola adatta a compiti binari o multi-label. binario o a più etichette.
  • ReLU (Unità lineare rettificata): ReLU è la funzione di attivazione preferita per gli strati nascosti delle moderne reti profonde. A differenza della Sigmoid, che satura a 0 e 1, causando il problema del problema del gradiente che svanisce durante la backpropagation, la ReLU permette ai gradienti di fluire più liberamente per gli input positivi. Questo accelera l'addestramento e la convergenza, come si legge negli appunti del corso CS231n di Stanford. Stanford CS231n.
  • Tanh (Tangente iperbolica): La funzione Tanh è simile alla Sigmoide, ma mappa gli ingressi in un intervallo compreso tra -1 e 1. Poiché l'uscita è centrata su zero, Tanh è spesso preferita alla Sigmoide negli strati nascosti delle vecchie architetture e di alcune RNN. centrata su zero, Tanh è spesso preferita a Sigmoid negli strati nascosti delle architetture più vecchie e di alcune RNN, in quanto aiuta a centrare i dati per gli strati successivi. perché aiuta a centrare i dati per gli strati successivi.

Esempio di implementazione

Il seguente snippet Python mostra come applicare la funzione Sigmoide usando PyTorch. Si tratta di un'operazione comune utilizzata per convertire i risultati grezzi del modello (logit) in probabilità interpretabili.

import torch
import torch.nn as nn

# Raw outputs (logits) from a model for a binary or multi-label task
logits = torch.tensor([0.1, -2.5, 4.0])

# Apply the Sigmoid activation function
sigmoid = nn.Sigmoid()
probabilities = sigmoid(logits)

# Output values are squashed between 0 and 1
print(probabilities)
# Output: tensor([0.5250, 0.0759, 0.9820])

Capire quando utilizzare Sigmoid è fondamentale per costruire sistemi di intelligenza artificiale efficaci. Sebbene abbia dei limiti nei livelli nascosti profondi a causa della saturazione del gradiente, la sua capacità di modellare strati nascosti profondi a causa della saturazione del gradiente, la sua capacità di modellare probabilità indipendenti lo rende rilevante nel calcolo delle calcolo delle funzioni di perdita e negli strati finali di uscita per un'ampia varietà di compiti.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora