Khám phá những nguyên tắc cơ bản của Mô hình Ngôn ngữ Lớn (LLM). Tìm hiểu về kiến trúc Transformer, mã hóa từ vựng và cách kết hợp LLM với... Ultralytics YOLO26.
Mô hình ngôn ngữ quy mô lớn (LLM) là một loại Trí tuệ nhân tạo (AI) tinh vi được huấn luyện trên các tập dữ liệu khổng lồ để hiểu, tạo ra và thao tác ngôn ngữ của con người. Các mô hình này đại diện cho một bước tiến đáng kể trong Học sâu (DL) , sử dụng mạng nơ-ron với hàng tỷ tham số để nắm bắt các mẫu ngôn ngữ phức tạp, ngữ pháp và các mối quan hệ ngữ nghĩa. Về cốt lõi, hầu hết các LLM hiện đại dựa trên kiến trúc Transformer , cho phép chúng xử lý các chuỗi dữ liệu song song thay vì tuần tự. Kiến trúc này sử dụng cơ chế tự chú ý , cho phép mô hình cân nhắc tầm quan trọng của các từ khác nhau trong một câu so với nhau, bất kể khoảng cách của chúng trong văn bản.
Chức năng của mô hình học ngôn ngữ tuyến tính (LLM) bắt đầu bằng quá trình mã hóa từ (tokenization ), trong đó văn bản thô được chia nhỏ thành các đơn vị nhỏ hơn gọi là token (từ hoặc từ con). Trong giai đoạn huấn luyện mô hình, hệ thống phân tích hàng petabyte văn bản từ internet, sách và bài báo. Nó tham gia vào quá trình học không giám sát để dự đoán token tiếp theo trong một chuỗi, từ đó học được cấu trúc thống kê của ngôn ngữ.
Sau quá trình đào tạo ban đầu này, các nhà phát triển thường tinh chỉnh mô hình để chuyên biệt hóa cho các nhiệm vụ khác nhau, chẳng hạn như phân tích y tế hoặc hỗ trợ lập trình. Khả năng thích ứng này là lý do tại sao các tổ chức như Trung tâm Nghiên cứu về Mô hình Nền tảng Stanford lại được đánh giá cao. classify Chúng được xem như "mô hình nền tảng" - những cơ sở rộng lớn mà trên đó các ứng dụng cụ thể được xây dựng.
Các chương trình LLM đã vượt ra khỏi phạm vi nghiên cứu lý thuyết để ứng dụng thực tiễn, mang lại tác động lớn trong nhiều ngành công nghiệp khác nhau:
Trong khi các mô hình ngôn ngữ học tiêu chuẩn xử lý văn bản, ngành công nghiệp đang chuyển hướng sang Trí tuệ nhân tạo đa phương thức . Ví dụ sau đây minh họa cách các gợi ý ngôn ngữ có thể điều khiển các tác vụ thị giác máy tính bằng cách sử dụng YOLO -World , một mô hình hiểu các mô tả văn bản để phát hiện từ vựng mở.
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Điều quan trọng là phải phân biệt LLM với các thuật ngữ rộng hơn hoặc tương đương:
Mặc dù có nhiều khả năng, các mô hình học máy tuyến tính (LLM) vẫn phải đối mặt với những thách thức liên quan đến sự thiên vị trong trí tuệ nhân tạo , vì chúng có thể vô tình tái tạo những định kiến được tìm thấy trong dữ liệu huấn luyện của mình. Hơn nữa, sức mạnh tính toán khổng lồ cần thiết để huấn luyện các mô hình như GPT-4 hoặc Google Gemini làm dấy lên lo ngại về mức tiêu thụ năng lượng. Nghiên cứu hiện đang tập trung vào lượng tử hóa mô hình để làm cho các hệ thống này đủ hiệu quả để chạy trên phần cứng biên.
Để hiểu sâu hơn về mặt kỹ thuật, bài báo gốc "Attention Is All You Need" cung cấp lý thuyết nền tảng cho Transformer. Bạn cũng có thể tìm hiểu cách NVIDIA tối ưu hóa phần cứng cho các khối lượng công việc khổng lồ này.