BERT (Bidirektionale Encoder-Darstellungen von Transformatoren)
Entdecken Sie BERT, das revolutionäre NLP-Modell von Google. Erfahren Sie, wie sein bidirektionales Kontextverständnis KI-Aufgaben wie Suche und Chatbots transformiert.
BERT steht für Bidirectional Encoder Representations from Transformers und ist eine bahnbrechende Technik für das Vortraining der Verarbeitung natürlicher Sprache (NLP), die von Forschern bei Google AI Language entwickelt wurde. BERT wurde 2018 in dem einflussreichen Papier"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" vorgestellt und revolutionierte die Art und Weise, wie Maschinen menschliche Sprache verstehen. Es war eine der ersten tiefen bidirektionalen, unüberwachten Sprachrepräsentationen, die nur mit einem einfachen Textkorpus wie Wikipedia vortrainiert wurden. BERT nutzt die leistungsstarke Transformer-Architektur, insbesondere den Encoder-Teil, um Wörter in Relation zu allen anderen Wörtern in einem Satz gleichzeitig und nicht sequentiell zu verarbeiten. Dies ermöglicht im Vergleich zu früheren unidirektionalen Modellen ein tieferes Verständnis des Kontexts.
So funktioniert Bert
Im Gegensatz zu früheren Modellen, die den Text in einer einzigen Richtung (entweder von links nach rechts oder von rechts nach links) verarbeiteten, verarbeitet BERT mit seinem Transformer-Encoder und dem Selbstaufmerksamkeitsmechanismus die gesamte Wortfolge auf einmal. Dieser bidirektionale Ansatz ermöglicht es ihm, den Kontext eines Wortes auf der Grundlage der umgebenden Wörter zu erfassen, sowohl der vorangehenden als auch der nachfolgenden. So kann BERT beispielsweise die Bedeutung von "Bank" in "Ich muss zur Bank gehen, um Geld abzuheben" von "Das Flussufer war schlammig" unterscheiden, indem es den gesamten Satzkontext berücksichtigt.
BERT lernt diese komplexen sprachlichen Beziehungen in einer Pre-Trainingsphase anhand großer Mengen von Textdaten. Dies umfasst zwei wichtige unbeaufsichtigte Aufgaben:
- Maskiertes Sprachmodell (MLM): Ein gewisser Prozentsatz der eingegebenen Token (Wörter oder Teilwörter) wird zufällig maskiert (versteckt), und das Modell lernt, diese maskierten Token auf der Grundlage ihres Kontexts vorherzusagen.
- Next Sentence Prediction (NSP): Das Modell empfängt Satzpaare und lernt, vorherzusagen, ob der zweite Satz der tatsächliche nächste Satz ist, der auf den ersten im Originaltext folgt, oder nur ein zufälliger Satz.
Das Ergebnis dieses Vortrainings ist ein Modell mit umfangreichen Spracheinbettungen, die Syntax und Semantik erfassen. Dieses vortrainierte BERT-Modell kann dann schnell für verschiedene spezifische nachgelagerte NLP-Aufgaben mit kleineren, aufgabenspezifischen Datensätzen angepasst oder"feinabgestimmt" werden. Dieser Prozess der Nutzung von vortrainiertem Wissen ist eine Form des Transferlernens.
Hauptmerkmale und Vorteile
- Tiefer bidirektionaler Kontext: Die wichtigste Innovation von BERT ist seine Fähigkeit, den Kontext eines Wortes zu verstehen, indem es die Wörter, die vor und nach dem Wort kommen, gleichzeitig betrachtet. Dies führt zu einem viel umfassenderen und genaueren Verständnis von Sprachnuancen im Vergleich zu unidirektionalen Modellen wie frühen Versionen von GPT.
- Leistung auf dem neuesten Stand der Technik: Bei seiner Veröffentlichung erzielte BERT bei einer Vielzahl von NLP-Benchmarks, einschließlich der Beantwortung von Fragen (wie dem SQuAD-Datensatz) und Aufgaben zum Verstehen natürlicher Sprache (NLU), Ergebnisse auf dem neuesten Stand der Technik.
- Kraftpaket für Transfer Learning: Die vortrainierten Modelle von BERT dienen als leistungsstarke Grundlage. Durch die Feinabstimmung von BERT auf bestimmte Aufgaben wie Sentiment-Analyse oder Named Entity Recognition (NER) können Entwickler mit deutlich weniger aufgabenspezifischen Daten und Trainingszeit eine hohe Leistung erzielen, als wenn sie ein Modell von Grund auf trainieren würden.
- Breite Verfügbarkeit: Vorgefertigte BERT-Modelle sind über Plattformen wie Hugging Face leicht zugänglich und können mit gängigen Deep Learning-Frameworks wie PyTorch und TensorFlow verwendet werden.
Anwendungen in der realen Welt
Die Fähigkeit des BERT, Sprachnuancen zu verstehen, hat zu erheblichen Verbesserungen bei verschiedenen realen Anwendungen der Künstlichen Intelligenz (KI ) geführt:
- Suchmaschinen: Die Google-Suche hat BERT bekanntlich eingebaut, um Nutzeranfragen besser zu verstehen, vor allem wenn es sich um konversationelle oder komplexe Anfragen handelt, was zu relevanteren Suchergebnissen führt. Wie in einem Beitrag im Google AI Blog erläutert, hilft BERT dabei, die Absicht hinter Suchanfragen wie "Können Sie Medikamente für eine Apotheke besorgen" zu erfassen, indem es die Bedeutung von Präpositionen wie "für" und "zu" versteht.
- Chatbots und virtuelle Assistenten: BERT verbessert die Fähigkeit von Chatbots und virtuellen Assistenten, Benutzeranfragen genauer zu verstehen, den Kontext in Unterhaltungen beizubehalten und hilfreichere Antworten im Kundenservice, in Buchungssystemen und bei der Informationsbeschaffung zu geben.
- Stimmungsanalyse: Unternehmen nutzen BERT-basierte Modelle zur Analyse von Kundenrezensionen, Kommentaren in sozialen Medien und Umfrageantworten, um die öffentliche Meinung und das Produktfeedback mit höherer Genauigkeit zu erfassen.
- Textzusammenfassung und Beantwortung von Fragen: BERT kann fein abgestimmt werden, um Systeme zu entwickeln, die automatisch lange Dokumente zusammenfassen(Textzusammenfassung) oder Fragen zu einer bestimmten Textpassage beantworten.
BERT wird zwar in erster Linie im Bereich NLP eingesetzt, aber die von ihm propagierte Transformer-Architektur hat auch zu Fortschritten im Bereich der Computer Vision (CV) geführt, etwa zu Vision Transformers (ViT), die in Modellen wie RT-DETR verwendet werden. Plattformen wie Ultralytics HUB erleichtern das Training und den Einsatz verschiedener KI-Modelle, einschließlich solcher, die auf Transformer-Prinzipien aufbauen.