Glossário

BERT (Bidirectional Encoder Representations from Transformers)

Descubra o BERT, o revolucionário modelo de PNL da Google. Saiba como a sua compreensão bidirecional do contexto transforma as tarefas de IA, como a pesquisa e os chatbots.

Para utilizadores familiarizados com conceitos básicos de aprendizagem automática, BERT (Bidirectional Encoder Representations from Transformers) representa um marco significativo na na evolução do processamento de linguagem natural (PNL). Desenvolvido por investigadoresGoogle em 2018, este modelo mudou o paradigma do processamento de texto sequencialmente (da esquerda para a direita ou da direita para a esquerda) para analisar sequências inteiras em simultâneo. Ao utilizar uma abordagem bidirecional, o BERT consegue uma compreensão mais profunda e mais profunda e matizada do contexto linguístico, tornando-o um modelo de base essencial para aplicações modernas de IA.

A arquitetura do BERT

No seu núcleo, o BERT utiliza o mecanismo de codificação da arquitetura arquitetura Transformer. Ao contrário dos seus antecessores, que se baseavam frequentemente em redes neurais recorrentes (RNNs), o BERT utiliza a auto-atenção para ponderar a importância de importância de diferentes palavras numa frase em relação umas às outras. Isto permite que o modelo capte dependências complexas independentemente complexas, independentemente da distância entre as palavras. Para atingir estas capacidades, o BERT é pré-treinado em corpora de texto massivos utilizando duas estratégias inovadoras não supervisionadas:

Modelação de linguagem mascarada (MLM): Neste processo, as palavras aleatórias numa frase são escondidas ou "mascaradas" e o modelo tenta prever a palavra original com base no contexto envolvente. Isto obriga o BERT a compreender a relação bidirecional bidirecional entre palavras.
Previsão da frase seguinte (NSP): Esta tarefa treina o modelo para prever se uma segunda frase segue logicamente a primeira. O domínio desta tarefa ajuda o o BERT a compreender a estrutura e a coerência dos parágrafos, o que é essencial para tarefas como resposta a perguntas.

Uma vez pré-treinado, o BERT pode ser adaptado a tarefas específicas a jusante através de de um ajuste fino, em que o modelo é treinado num conjunto de dados mais pequeno e específico da tarefa para otimizar o desempenho.

Comparação do BERT com outros modelos

É importante distinguir o BERT de outros modelos de modelos de IA:

vs. GPT (Transformador generativo pré-treinado): Embora ambos sejam modelos de Modelos de Linguagem Grandes (LLMs), os modelos GPT utilizam uma arquitetura só de descodificador optimizada para optimizada para a geração de texto. Em contraste, o BERT é um modelo modelo apenas de codificador concebido para compreender e classificar texto existente.
vs. Modelos de Visão por Computador: Enquanto o BERT processa dados textuais, modelos de visão como YOLO11 operam em pixéis para realizar tarefas como a deteção de objectos e segmentação de instâncias. No entanto, o mecanismo de mecanismo de atenção popularizado pelo BERT influenciou influenciou fortemente as arquitecturas de visão, levando ao desenvolvimento do Transformador de Visão (ViT).

Aplicações no Mundo Real

A capacidade do BERT para compreender o contexto levou à sua adoção generalizada em várias indústrias:

Motores de pesquisa melhorados: Google Search integrou o BERT para interpretar melhor as consultas complexas dos utilizadores. Por exemplo, na consulta "livros de matemática para adultos", o o BERT ajuda o motor a compreender a intenção específica, garantindo que os resultados se centram em recursos para adultos em vez de livros de texto gerais.
Análise Avançada de Sentimentos: As empresas utilizam a análise de sentimentos análise de sentimentos para processar o clientes. Ao compreender nuances como o sarcasmo ou as duplas negativas, estes modelos conseguem classify com exatidão as opiniões como positivas ou negativas, fornecendo informações acionáveis para melhorar a experiência do cliente.

Implementação de um codificador de transformador

Embora os modelos BERT sejam normalmente carregados com pesos pré-treinados, a arquitetura subjacente é construída sobre o codificador de transformador. O seguinte PyTorch exemplo demonstra como inicializar uma camada básica de codificador, que serve como bloco de construção para o BERT.

import torch
import torch.nn as nn

# Initialize a Transformer Encoder Layer similar to BERT's building blocks
# d_model: number of expected features in the input
# nhead: number of heads in the multiheadattention models
encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8)

# Stack multiple layers to create the full Encoder
transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)

# Create a dummy input tensor: (sequence_length, batch_size, feature_dim)
src = torch.rand(10, 32, 512)

# Forward pass through the encoder
output = transformer_encoder(src)

print(f"Input shape: {src.shape}")
print(f"Output shape: {output.shape}")
# Output maintains the same shape, containing context-aware representations

BERT (Bidirectional Encoder Representations from Transformers)

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

A arquitetura do BERT

Comparação do BERT com outros modelos

Aplicações no Mundo Real

Implementação de um codificador de transformador

Leia mais nesta categoria

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Melhorar a reidentificação de veículos com modelos Ultralytics YOLO

Melhorar a previsão de colisões com os modelos Ultralytics YOLO

Junte-se à comunidade Ultralytics