Explore BERT, the revolutionary bidirectional NLP model. Learn how it uses Transformer architecture for sentiment analysis, search, and [multimodal AI](https://www.ultralytics.com/glossary/multimodal-ai) workflows.
BERT (Bidirectional Encoder Representations from Transformers) ist eine bahnbrechende Deep-Learning-Architektur, die von Forschern bei Google entwickelt wurde, Google Maschinen dabei zu helfen, die Nuancen der menschlichen Sprache besser zu verstehen. BERT wurde 2018 eingeführt und revolutionierte den Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) durch die Einführung einer bidirektionalen Trainingsmethode. Im Gegensatz zu früheren Modellen, die Text sequenziell von links nach rechts oder von rechts nach links lesen, analysiert BERT den Kontext eines Wortes, indem es gleichzeitig die Wörter vor und nach diesem Wort betrachtet . Durch diesen Ansatz kann das Modell subtile Bedeutungen, Redewendungen und Homonyme (Wörter mit mehreren Bedeutungen) viel effektiver erfassen als seine Vorgänger.
Im Kern basiert BERT auf der Transformer -Architektur, insbesondere auf dem Encoder-Mechanismus . Die „bidirektionale” Natur wird durch eine Trainingstechnik namens Masked Language Modeling (MLM) erreicht. Während des Vortrainings werden etwa 15 % der Wörter in einem Satz zufällig maskiert (verborgen), und das Modell versucht, die fehlenden Wörter anhand des umgebenden Kontexts vorherzusagen. Dadurch wird das Modell gezwungen, tiefe bidirektionale Darstellungen zu lernen.
Darüber hinaus nutzt BERT die Next Sentence Prediction (NSP), um die Beziehung zwischen Sätzen zu verstehen. Bei dieser Aufgabe erhält das Modell Satzpaare und muss bestimmen, ob der zweite Satz logisch auf den ersten folgt. Diese Fähigkeit ist entscheidend für Aufgaben, die ein Verständnis des Diskurses erfordern, wie beispielsweise die Beantwortung von Fragen und die Zusammenfassung von Texten.
Die Vielseitigkeit von BERT hat es zu einer Standardkomponente in vielen modernen KI-Systemen gemacht. Hier sind zwei konkrete Beispiele für seine Anwendung:
Es ist hilfreich, BERT von anderen bekannten Architekturen zu unterscheiden, um seine spezifische Nische zu verstehen.
Um BERT verwenden zu können, muss der Rohtext in numerische Token umgewandelt werden. Das Modell verwendet ein bestimmtes Vokabular (wie WordPiece) , um Wörter zu zerlegen. BERT ist zwar ein Textmodell, aber ähnliche Vorverarbeitungskonzepte gelten auch in der Bildverarbeitung, wo Bilder in Patches zerlegt werden.
Der folgende Python zeigt, wie man die transformers Bibliothek zum Tokenisieren eines Satzes für die
BERT-Verarbeitung. Beachten Sie, dass Ultralytics zwar auf das Sehen Ultralytics , das Verständnis der Tokenisierung jedoch entscheidend für
multimodale KI Arbeitsabläufe.
from transformers import BertTokenizer
# Initialize the tokenizer with the pre-trained 'bert-base-uncased' vocabulary
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
# Tokenize a sample sentence relevant to AI
text = "Ultralytics simplifies computer vision."
# Convert text to input IDs (numerical representations)
encoded_input = tokenizer(text, return_tensors="pt")
# Display the resulting token IDs
print(f"Token IDs: {encoded_input['input_ids']}")
Die Einführung von BERT markierte denImageNet für NLP und bewies, dass Transferlernen– das Vorabtrainieren eines Modells auf einem massiven Datensatz und dessen anschließende Feinabstimmung für eine bestimmte Aufgabe – für Text äußerst effektiv war. Dadurch wurde der Bedarf an aufgabenspezifischen Architekturen und großen beschrifteten Datensätzen für jedes neue Problem reduziert.
Heute sorgen Varianten von BERT, wie RoBERTa und DistilBERT, weiterhin für Effizienz in Edge-KI-Anwendungen. Entwickler, die umfassende KI-Lösungen erstellen möchten, integrieren diese Sprachmodelle häufig zusammen mit den auf der Ultralytics verfügbaren Bildverarbeitungswerkzeugen, um Systeme zu schaffen, die die Welt sowohl sehen als auch verstehen können .