Khám phá BERT, mô hình NLP mang tính cách mạng của Google. Tìm hiểu cách hiểu ngữ cảnh hai chiều của nó chuyển đổi các tác vụ AI như tìm kiếm và chatbot.
BERT, viết tắt của Bidirectional Encoder Representations from Transformers (Bidirectional Encoder Representations from Transformers), là một mô hình ngôn ngữ mang tính cách mạng do Google phát triển. Được giới thiệu trong một bài nghiên cứu năm 2018, BERT đã thay đổi lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) khi trở thành mô hình đầu tiên có thể hiểu ngữ cảnh của một từ dựa trên môi trường xung quanh từ cả bên trái và bên phải (theo cả hai hướng). Khả năng nắm bắt ngữ cảnh này cho phép BERT nắm bắt các sắc thái của ngôn ngữ con người hiệu quả hơn nhiều so với các mô hình trước đây, vốn thường xử lý văn bản theo một hướng duy nhất. Đây là một loại Mô hình Ngôn ngữ Lớn (LLM) và được coi là công nghệ nền tảng cho nhiều ứng dụng NLP hiện đại.
Điểm đổi mới cốt lõi của BERT nằm ở phương pháp huấn luyện song hướng, được xây dựng dựa trên kiến trúc Transformer . Không giống như các mô hình trước đây đọc văn bản tuần tự, cơ chế chú ý của BERT cho phép nó xem xét toàn bộ câu cùng một lúc. Để đạt được khả năng hiểu song hướng này trong quá trình tiền huấn luyện, BERT sử dụng hai chiến lược chính:
Sau quá trình tiền huấn luyện mở rộng này trên một khối văn bản khổng lồ, BERT có thể được điều chỉnh cho các tác vụ cụ thể thông qua một quy trình gọi là tinh chỉnh . Quá trình này bao gồm việc huấn luyện mô hình sâu hơn trên một tập dữ liệu nhỏ hơn, dành riêng cho tác vụ cụ thể, khiến nó trở thành một công cụ cực kỳ linh hoạt cho các nhà phát triển và nhà nghiên cứu. Nhiều mô hình BERT được đào tạo trước có thể truy cập được thông qua các nền tảng như Hugging Face .
Khả năng hiểu các sắc thái ngôn ngữ của BERT đã dẫn đến những cải tiến đáng kể trong nhiều ứng dụng Trí tuệ nhân tạo (AI) thực tế:
Điều quan trọng là phải phân biệt BERT với các mô hình AI khác:
Các nền tảng như Ultralytics HUB hỗ trợ việc đào tạo và triển khai nhiều mô hình AI khác nhau, bao gồm cả những mô hình được xây dựng dựa trên nguyên lý Transformer. Việc phát triển BERT và các mô hình tương tự thường liên quan đến các khuôn khổ học máy tiêu chuẩn như PyTorch và TensorFlow .