Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

BERT (Bidirectional Encoder Representations from Transformers)

Explore BERT, the revolutionary bidirectional NLP model. Learn how it uses Transformer architecture for sentiment analysis, search, and [multimodal AI](https://www.ultralytics.com/glossary/multimodal-ai) workflows.

BERT (Bidirectional Encoder Representations from Transformers) è un'architettura di deep learning rivoluzionaria progettata dai ricercatori di Google aiutare le macchine Google comprendere meglio le sfumature del linguaggio umano. Introdotto nel 2018, BERT ha rivoluzionato il campo dell' elaborazione del linguaggio naturale (NLP) introducendo un metodo di addestramento bidirezionale. A differenza dei modelli precedenti che leggono il testo in modo sequenziale da sinistra a destra o da destra a sinistra, BERT analizza il contesto di una parola osservando contemporaneamente le parole che la precedono e quelle che la seguono . Questo approccio consente al modello di cogliere significati sottili, espressioni idiomatiche e omonimi (parole con più significati) in modo molto più efficace rispetto ai modelli precedenti.

Come funziona il BERT

Fondamentalmente, BERT si basa sull' architettura Transformer, in particolare sul meccanismo dell'encoder . La natura "bidirezionale" è ottenuta attraverso una tecnica di addestramento chiamata Masked Language Modeling (MLM). Durante il pre-addestramento, circa il 15% delle parole in una frase viene mascherato (nascosto) in modo casuale e il modello cerca di prevedere le parole mancanti in base al contesto circostante. Questo costringe il modello ad apprendere rappresentazioni bidirezionali profonde.

Inoltre, BERT utilizza la previsione della frase successiva (NSP) per comprendere la relazione tra le frasi. In questo compito, al modello vengono fornite coppie di frasi e deve determinare se la seconda frase segue logicamente la prima. Questa capacità è fondamentale per i compiti che richiedono la comprensione del discorso, come la risposta alle domande e la sintesi del testo.

Applicazioni nel mondo reale

La versatilità di BERT lo ha reso un componente standard in molti sistemi di IA moderni. Ecco due esempi concreti della sua applicazione:

  1. Ottimizzazione per i motori di ricerca: Google BERT nei suoi algoritmi di ricerca per interpretare meglio le query complesse. Ad esempio, nella query "2019 brasiliano viaggiatore negli Stati Uniti bisogno di visto", la parola "negli" è fondamentale. I modelli tradizionali spesso trattavano "to" come una parola di stop (parole comuni filtrate ), perdendo la relazione direzionale. BERT capisce che l'utente è un brasiliano che viaggia negli Stati Uniti, e non il contrario, fornendo risultati di ricerca altamente pertinenti.
  2. Analisi del sentiment nei feedback dei clienti: le aziende utilizzano BERT per analizzare automaticamente migliaia di recensioni dei clienti o ticket di assistenza. Poiché BERT comprende il contesto, è in grado di distinguere tra "Questo aspirapolvere fa schifo" (sentiment negativo) e "Questo aspirapolvere aspira tutto lo sporco" (sentiment positivo). Questa precisa analisi del sentiment aiuta le aziende a selezionare i problemi di assistenza e track accuratamente lo stato di salute track .

Confronto con concetti correlati

È utile distinguere BERT dalle altre architetture più note per comprenderne la nicchia specifica.

  • BERT vs. GPT (Generative Pre-trained Transformer): Sebbene entrambi utilizzino l'architettura Transformer, i loro obiettivi sono diversi. BERT utilizza lo stack Encoder ed è ottimizzato per attività di comprensione e discriminazione (ad esempio, classificazione, estrazione di entità). Al contrario, GPT utilizza lo stack Decoder ed è progettato per la generazione di testo, prevedendo la parola successiva in una sequenza per scrivere saggi o codice.
  • BERT vs. YOLO26: Questi modelli operano in ambiti diversi. BERT elabora dati testuali sequenziali per compiti linguistici. YOLO26 è un modello di visione all'avanguardia che elabora griglie di pixel per il rilevamento di oggetti in tempo reale. Tuttavia, i moderni sistemi multimodali spesso li combinano; ad esempio, un YOLO potrebbe detect in un'immagine, e un modello basato su BERT potrebbe quindi rispondere a domande sulle loro relazioni.

Esempio di implementazione: tokenizzazione

Per utilizzare BERT, il testo grezzo deve essere convertito in token numerici. Il modello utilizza un vocabolario specifico (come WordPiece) per scomporre le parole. Sebbene BERT sia un modello di testo, concetti di pre-elaborazione simili si applicano nella visione artificiale, dove le immagini vengono suddivise in patch.

Il seguente Python mostra come utilizzare il transformers libreria per tokenizzare una frase per l' elaborazione BERT. Si noti che, mentre Ultralytics sulla visione, comprendere la tokenizzazione è fondamentale per IA multimodale flussi di lavoro.

from transformers import BertTokenizer

# Initialize the tokenizer with the pre-trained 'bert-base-uncased' vocabulary
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# Tokenize a sample sentence relevant to AI
text = "Ultralytics simplifies computer vision."

# Convert text to input IDs (numerical representations)
encoded_input = tokenizer(text, return_tensors="pt")

# Display the resulting token IDs
print(f"Token IDs: {encoded_input['input_ids']}")

Significato nel panorama dell'intelligenza artificiale

L'introduzione di BERT ha segnato il "ImageNet " per l'NLP, dimostrando che il transfer learning, ovvero il pre-addestramento di un modello su un enorme set di dati e la sua successiva messa a punto per un compito specifico, era altamente efficace per il testo. Ciò ha ridotto la necessità di architetture specifiche per ogni compito e di grandi set di dati etichettati per ogni nuovo problema.

Oggi, varianti di BERT, come RoBERTa e DistilBERT, continuano a potenziare l'efficienza nelle applicazioni di intelligenza artificiale edge. Gli sviluppatori che desiderano creare soluzioni di intelligenza artificiale complete spesso integrano questi modelli linguistici insieme agli strumenti di visione disponibili sulla Ultralytics per creare sistemi in grado sia di vedere che di comprendere il mondo.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora