Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

BERT (Bidirectional Encoder Representations from Transformers)

Khám phá BERT, Google Mô hình NLP mang tính cách mạng. Tìm hiểu cách hiểu ngữ cảnh hai chiều của nó chuyển đổi các tác vụ AI như tìm kiếm và chatbot.

Đối với những người dùng đã quen thuộc với các khái niệm học máy cơ bản, BERT (Biểu diễn Bộ mã hóa Hai chiều từ Bộ chuyển đổi) đánh dấu một cột mốc quan trọng trong quá trình phát triển của Xử lý Ngôn ngữ Tự nhiên (NLP) . Được phát triển bởi các nhà nghiên cứu Google vào năm 2018, mô hình này đã chuyển đổi mô hình từ xử lý văn bản tuần tự (từ trái sang phải hoặc từ phải sang trái) sang phân tích toàn bộ chuỗi đồng thời. Bằng cách tận dụng phương pháp tiếp cận hai chiều, BERT đạt được sự hiểu biết sâu sắc và sắc thái hơn về ngữ cảnh ngôn ngữ, biến nó thành một mô hình nền tảng quan trọng cho các ứng dụng AI hiện đại.

Kiến trúc của BERT

Về cơ bản, BERT sử dụng cơ chế mã hóa của kiến trúc Transformer . Không giống như các phiên bản trước, thường dựa vào Mạng Nơ-ron Hồi quy (RNN) , BERT sử dụng cơ chế tự chú ý (self-attention) để cân nhắc tầm quan trọng của các từ khác nhau trong câu so với nhau. Điều này cho phép mô hình nắm bắt các mối quan hệ phức tạp bất kể khoảng cách giữa các từ. Để đạt được khả năng này, BERT được đào tạo trước trên các tập dữ liệu văn bản lớn bằng hai chiến lược không giám sát tiên tiến:

  • Mô hình Ngôn ngữ Che giấu (MLM) : Trong quá trình này, các từ ngẫu nhiên trong câu được ẩn hoặc "che giấu", và mô hình cố gắng dự đoán từ gốc dựa trên ngữ cảnh xung quanh. Điều này buộc BERT phải hiểu mối quan hệ hai chiều giữa các từ.
  • Dự đoán Câu Tiếp theo (NSP) : Nhiệm vụ này huấn luyện mô hình dự đoán liệu câu thứ hai có theo sau câu đầu tiên một cách logic hay không. Việc thành thạo kỹ năng này giúp BERT hiểu được cấu trúc và tính mạch lạc của đoạn văn, điều này rất cần thiết cho các nhiệm vụ như trả lời câu hỏi .

Sau khi được đào tạo trước, BERT có thể được điều chỉnh cho các tác vụ hạ nguồn cụ thể thông qua quá trình tinh chỉnh , trong đó mô hình được đào tạo thêm trên một tập dữ liệu nhỏ hơn, dành riêng cho tác vụ để tối ưu hóa hiệu suất.

So sánh BERT với các mô hình khác

Điều quan trọng là phải phân biệt BERT với các mô hình AI nổi bật khác:

Các Ứng dụng Thực tế

Khả năng nắm bắt bối cảnh của BERT đã dẫn đến việc nó được áp dụng rộng rãi trong nhiều ngành công nghiệp khác nhau:

  • Công cụ Tìm kiếm Nâng cao: Google Search tích hợp BERT để diễn giải tốt hơn các truy vấn phức tạp của người dùng. Ví dụ: trong truy vấn "sách luyện tập toán cho người lớn", BERT giúp công cụ hiểu được ý định cụ thể, đảm bảo kết quả tập trung vào các tài nguyên dành cho người lớn thay vì sách giáo khoa chung chung.
  • Phân tích cảm xúc nâng cao: Các doanh nghiệp sử dụng phân tích cảm xúc dựa trên BERT để xử lý phản hồi của khách hàng. Bằng cách hiểu các sắc thái như mỉa mai hoặc phủ định kép, các mô hình này có thể chính xác classify đánh giá là tích cực hoặc tiêu cực, cung cấp thông tin chi tiết có thể thực hiện được để cải thiện trải nghiệm của khách hàng .

Triển khai bộ mã hóa biến áp

Trong khi các mô hình BERT thường được tải với các trọng số đã được đào tạo trước, kiến trúc cơ bản được xây dựng trên Transformer Encoder. Ví dụ PyTorch sau đây minh họa cách khởi tạo một lớp mã hóa cơ bản, đóng vai trò là khối xây dựng cho BERT.

import torch
import torch.nn as nn

# Initialize a Transformer Encoder Layer similar to BERT's building blocks
# d_model: number of expected features in the input
# nhead: number of heads in the multiheadattention models
encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8)

# Stack multiple layers to create the full Encoder
transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)

# Create a dummy input tensor: (sequence_length, batch_size, feature_dim)
src = torch.rand(10, 32, 512)

# Forward pass through the encoder
output = transformer_encoder(src)

print(f"Input shape: {src.shape}")
print(f"Output shape: {output.shape}")
# Output maintains the same shape, containing context-aware representations

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay