Glossar

BERT (Bidirektionale Encoder-Darstellungen von Transformatoren)

Entdecken Sie BERT, das revolutionäre NLP-Modell von Google. Erfahren Sie, wie sein bidirektionales Kontextverständnis KI-Aufgaben wie Suche und Chatbots transformiert.

BERT, die Abkürzung für Bidirectional Encoder Representations from Transformers, ist ein revolutionäres Sprachmodell, das von Google entwickelt wurde. BERT wurde 2018 in einem Forschungspapier vorgestellt und hat den Bereich der natürlichen Sprachverarbeitung (NLP) verändert, da es das erste Modell ist, das den Kontext eines Wortes auf der Grundlage seiner Umgebung sowohl von links als auch von rechts (bidirektional) versteht. Dank dieser Fähigkeit, den Kontext zu erfassen, kann BERT die Nuancen der menschlichen Sprache weitaus effektiver erfassen als frühere Modelle, die Text in der Regel nur in einer Richtung verarbeiteten. Es handelt sich um eine Art Large Language Model (LLM) und gilt als eine grundlegende Technologie für viele moderne NLP-Anwendungen.

So funktioniert Bert

Die zentrale Innovation von BERT liegt in seinem bidirektionalen Trainingsansatz, der auf der Transformer-Architektur aufbaut. Im Gegensatz zu früheren Modellen, die den Text sequentiell lesen, kann BERT dank seines Aufmerksamkeitsmechanismus den gesamten Satz auf einmal betrachten. Um dieses bidirektionale Verständnis während des Pre-Trainings zu erreichen, verwendet BERT zwei Hauptstrategien:

  1. Maskiertes Sprachmodell (MLM): Bei dieser Aufgabe werden einige Wörter in einem Satz nach dem Zufallsprinzip versteckt oder "maskiert", und die Aufgabe des Modells besteht darin, die ursprünglichen maskierten Wörter auf der Grundlage der umgebenden unmaskierten Wörter vorherzusagen. Dadurch ist das Modell gezwungen, tiefe kontextuelle Beziehungen aus beiden Richtungen zu lernen.
  2. Next Sentence Prediction (NSP): Das Modell erhält zwei Sätze und muss vorhersagen, ob der zweite Satz derjenige ist, der logisch auf den ersten im Originaltext folgt. Dies hilft BERT, Satzbeziehungen zu verstehen, was für Aufgaben wie die Beantwortung von Fragen und die Analyse von Absätzen entscheidend ist.

Nach diesem umfangreichen Vortraining auf einem riesigen Textkorpus kann BERT durch einen Prozess, der Feinabstimmung genannt wird, an spezifische Aufgaben angepasst werden. Dabei wird das Modell auf einem kleineren, aufgabenspezifischen Datensatz weiter trainiert, was es zu einem äußerst vielseitigen Werkzeug für Entwickler und Forscher macht. Viele vortrainierte BERT-Modelle sind über Plattformen wie Hugging Face zugänglich.

Anwendungen in der realen Welt

Die Fähigkeit des BERT, Sprachnuancen zu verstehen, hat zu erheblichen Verbesserungen bei verschiedenen realen Anwendungen der Künstlichen Intelligenz (KI ) geführt:

  • Suchmaschinen: Die Google-Suche ist dafür bekannt, dass sie BERT einsetzt, um Nutzeranfragen besser zu verstehen, vor allem wenn es sich um konversationelle oder komplexe Anfragen handelt, was zu relevanteren Suchergebnissen führt. BERT hilft beispielsweise, die Absicht hinter Suchanfragen wie "Können Sie Medikamente für eine Apotheke besorgen" zu verstehen, indem es die Bedeutung von Präpositionen wie "für" und "zu" erkennt.
  • Chatbots und virtuelle Assistenten: BERT verbessert die Fähigkeit von Chatbots und virtuellen Assistenten, Benutzeranfragen genauer zu verstehen, den Kontext in Unterhaltungen beizubehalten und hilfreichere Antworten im Kundenservice, in Buchungssystemen und bei der Informationsbeschaffung zu geben.
  • Stimmungsanalyse: Unternehmen nutzen BERT-basierte Modelle zur Analyse von Kundenrezensionen, Kommentaren in sozialen Medien und Umfrageantworten, um die öffentliche Meinung und das Produktfeedback mit höherer Genauigkeit zu erfassen.
  • Textzusammenfassung und Beantwortung von Fragen: BERT kann fein abgestimmt werden, um Systeme zu erstellen, die automatisch lange Dokumente zusammenfassen oder Fragen zu einer bestimmten Textpassage beantworten. Dies wird anhand von Datensätzen wie dem Stanford Question Answering Dataset (SQuAD) getestet.

Bert vs. andere Modelle

Es ist wichtig, das BERT von anderen AI-Modellen zu unterscheiden:

  • vs. GPT: Während es sich bei beiden um transformatorbasierte LLMs handelt, ist BERT ein reines Encoder-Modell, das für das Verständnis von Kontext aus beiden Richtungen konzipiert ist. Dadurch eignet es sich hervorragend für analytische Aufgaben wie Sentiment-Analyse, Named-Entity-Recognition (NER) und Textklassifikation. Im Gegensatz dazu sind GPT-Modelle decoderfokussiert und lesen Text nur in einer Richtung (von links nach rechts), wodurch sie für die Generierung neuer, kohärenter Texte optimiert sind.
  • vs. Computer Vision Modelle: BERT verarbeitet und versteht Text, was sich grundlegend von Computer Vision (CV) -Modellen wie Ultralytics YOLO unterscheidet. Bildverarbeitungsmodelle wie YOLO11 analysieren Pixel in Bildern und Videos, um Aufgaben wie Objekterkennung oder Instanzsegmentierung durchzuführen. Während BERT Sprache interpretiert, hat die Transformer-Architektur, die es populär gemacht hat, Fortschritte im Bereich CV inspiriert, was zu Modellen wie dem Vision Transformer (ViT) führte, der in Modellen wie RT-DETR verwendet wird.

Plattformen wie Ultralytics HUB erleichtern das Training und den Einsatz verschiedener KI-Modelle, einschließlich solcher, die auf Transformer-Prinzipien aufbauen. Für die Entwicklung von BERT und ähnlichen Modellen werden häufig Standard-Frameworks für maschinelles Lernen wie PyTorch und TensorFlow verwendet.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert