Khám phá BERT, Google Mô hình NLP mang tính cách mạng. Tìm hiểu cách hiểu ngữ cảnh hai chiều của nó chuyển đổi các tác vụ AI như tìm kiếm và chatbot.
BERT, viết tắt của Bidirectional Encoder Representations from Transformers, là một kỹ thuật quan trọng cho quá trình đào tạo trước Natural Language Processing (NLP) do các nhà nghiên cứu tại Google AI Language phát triển. Được giới thiệu vào năm 2018 thông qua bài báo có sức ảnh hưởng " BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ", BERT đã cách mạng hóa cách máy móc hiểu ngôn ngữ của con người. Đây là một trong những biểu diễn ngôn ngữ không giám sát, song hướng sâu đầu tiên, được đào tạo trước chỉ bằng một ngữ liệu văn bản thuần túy như Wikipedia . BERT tận dụng kiến trúc Transformer mạnh mẽ, cụ thể là phần mã hóa, để xử lý các từ liên quan đến tất cả các từ khác trong một câu đồng thời, thay vì tuần tự. Điều này cho phép hiểu sâu hơn về ngữ cảnh so với các mô hình đơn hướng trước đây.
Không giống như các mô hình trước đó xử lý văn bản theo một hướng duy nhất (từ trái sang phải hoặc từ phải sang trái), BERT xử lý toàn bộ chuỗi từ cùng một lúc bằng bộ mã hóa Transformer và cơ chế tự chú ý . Cách tiếp cận hai chiều này cho phép nó nắm bắt ngữ cảnh của một từ dựa trên các từ xung quanh, cả trước và sau nó. Ví dụ, BERT có thể phân biệt nghĩa của "ngân hàng" trong "Tôi cần đến ngân hàng để rút tiền mặt" so với " Bờ sông lầy lội" bằng cách xem xét ngữ cảnh câu đầy đủ.
BERT học các mối quan hệ ngôn ngữ phức tạp này trong giai đoạn tiền đào tạo trên một lượng lớn dữ liệu văn bản. Điều này bao gồm hai nhiệm vụ chính không được giám sát:
Kết quả của quá trình đào tạo trước này là một mô hình với các nhúng ngôn ngữ phong phú nắm bắt cú pháp và ngữ nghĩa. Mô hình BERT được đào tạo trước này sau đó có thể được điều chỉnh nhanh chóng hoặc ' tinh chỉnh ' cho nhiều tác vụ NLP hạ lưu cụ thể khác nhau bằng cách sử dụng các tập dữ liệu nhỏ hơn, cụ thể cho từng tác vụ. Quá trình tận dụng kiến thức được đào tạo trước này là một hình thức học chuyển giao .
Khả năng hiểu các sắc thái ngôn ngữ của BERT đã dẫn đến những cải tiến đáng kể trong nhiều ứng dụng Trí tuệ nhân tạo (AI) thực tế:
Trong khi BERT chủ yếu được sử dụng trong NLP, kiến trúc Transformer mà nó phổ biến cũng đã truyền cảm hứng cho những tiến bộ trong Computer Vision (CV) , chẳng hạn như Vision Transformers (ViT) được sử dụng trong các mô hình như RT-DETR . Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho việc đào tạo và triển khai nhiều mô hình AI khác nhau, bao gồm cả những mô hình được xây dựng trên nguyên tắc Transformer.