Thuật ngữ

Mô hình ngôn ngữ lớn (LLM)

Khám phá cách Mô hình ngôn ngữ lớn (LLM) cách mạng hóa AI với NLP tiên tiến, hỗ trợ chatbot, tạo nội dung, v.v. Tìm hiểu các khái niệm chính!

Các mô hình ngôn ngữ lớn (LLM) đại diện cho một bước tiến đáng kể trong lĩnh vực Trí tuệ nhân tạo (AI) , đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) . Các mô hình này được đặc trưng bởi quy mô khổng lồ, thường chứa hàng tỷ tham số và được đào tạo trên các tập dữ liệu lớn bao gồm văn bản và mã. Quá trình đào tạo mở rộng này cho phép các LLM hiểu ngữ cảnh, tạo văn bản mạch lạc và giống con người, dịch ngôn ngữ, trả lời câu hỏi và thực hiện một loạt các nhiệm vụ dựa trên ngôn ngữ với trình độ thành thạo đáng chú ý. Chúng là một loại mô hình Học sâu (DL) cụ thể, thúc đẩy sự đổi mới trên nhiều ứng dụng và hình thành nền tảng của AI tạo sinh hiện đại.

Sự định nghĩa

Mô hình ngôn ngữ lớn về cơ bản là một mạng nơ-ron (NN) tinh vi, thường dựa trên kiến trúc Transformer , được giới thiệu trong bài báo có ảnh hưởng " Attention Is All You Need ". "Lớn" trong LLM ám chỉ số lượng lớn các tham số —các biến được điều chỉnh trong quá trình đào tạo—có thể dao động từ hàng tỷ đến thậm chí hàng nghìn tỷ. Nhìn chung, số lượng tham số cao hơn cho phép mô hình học các mẫu phức tạp hơn từ dữ liệu.

LLM học các mẫu này thông qua việc học không giám sát trên các tập hợp văn bản khổng lồ thu thập từ internet, sách và các nguồn khác, thường được gọi là Dữ liệu lớn . Quá trình này giúp họ nắm bắt ngữ pháp, sự kiện, khả năng lập luận và thậm chí cả các sắc thái như giọng điệu và phong cách, mặc dù nó cũng có thể khiến họ học được các thành kiến có trong dữ liệu đào tạo . Một khả năng cốt lõi được phát triển trong quá trình đào tạo là dự đoán các từ tiếp theo trong một câu. Khả năng dự đoán này tạo thành cơ sở cho các nhiệm vụ phức tạp hơn như tạo văn bản , mô hình hóa ngôn ngữ và trả lời câu hỏi .

Các ví dụ nổi tiếng bao gồm chuỗi GPT từ OpenAI (như GPT-4 ), các mô hình Llama từ Meta AI như Llama 3 , Gemini từ Google DeepMind và Claude từ Anthropic .

Ứng dụng

Tính linh hoạt của LLM cho phép chúng được áp dụng trên nhiều lĩnh vực khác nhau. Sau đây là hai ví dụ cụ thể:

AI đàm thoại : LLM là công cụ đằng sau nhiều chatbot và trợ lý ảo tiên tiến. Chúng cho phép các hệ thống này hiểu được các truy vấn của người dùng, duy trì ngữ cảnh trong các cuộc trò chuyện và tạo ra các phản hồi nghe có vẻ tự nhiên. Một ví dụ điển hình là ChatGPT của OpenAI , sử dụng LLM để tham gia vào các cuộc đối thoại chi tiết, trả lời các câu hỏi tiếp theo và thậm chí thừa nhận lỗi.
Tạo và tóm tắt nội dung : LLM có thể hỗ trợ con người tạo ra nhiều dạng nội dung viết khác nhau, bao gồm bài viết, email, bản sao tiếp thị và văn bản sáng tạo. Họ cũng thành thạo trong Tóm tắt văn bản , cô đọng các tài liệu dài thành các bản tóm tắt ngắn gọn, giúp chống lại tình trạng quá tải thông tin . Các công cụ như Jasper và Microsoft Copilot tận dụng LLM cho các mục đích này.

Các khái niệm chính

Để hiểu về LLM, bạn cần phải quen thuộc với một số khái niệm liên quan:

Mô hình nền tảng : LLM thường được coi là mô hình nền tảng vì chúng được đào tạo trên dữ liệu rộng và có thể được điều chỉnh (hoặc tinh chỉnh ) cho nhiều tác vụ tiếp theo mà không cần phải đào tạo lại từ đầu.
Cơ chế chú ý : Đặc biệt là tự chú ý , các cơ chế này cho phép mô hình cân nhắc tầm quan trọng của các từ khác nhau (mã thông báo) trong chuỗi đầu vào khi xử lý một từ cụ thể. Điều này rất quan trọng để hiểu ngữ cảnh và mối quan hệ trong văn bản.
Kỹ thuật nhắc nhở : Điều này đề cập đến nghệ thuật và khoa học thiết kế các lời nhắc đầu vào hiệu quả để hướng dẫn LLM tạo ra đầu ra mong muốn. Chất lượng của lời nhắc ảnh hưởng đáng kể đến độ chính xác và tính phù hợp của phản hồi. Các kỹ thuật như nhắc nhở theo chuỗi suy nghĩ giúp cải thiện khả năng lý luận trong các nhiệm vụ phức tạp.
Token hóa : Trước khi xử lý văn bản, LLM chia nhỏ văn bản thành các đơn vị nhỏ hơn gọi là token . Các token này có thể là từ, từ phụ hoặc ký tự. Token hóa chuyển đổi văn bản thô thành định dạng số mà mô hình có thể hiểu được. Các nền tảng như Hugging Face cung cấp các công cụ và thông tin về các chiến lược token hóa khác nhau.

LLM so với Mô hình thị giác máy tính

Trong khi LLM xuất sắc trong các nhiệm vụ ngôn ngữ, chúng khác biệt đáng kể so với các mô hình chủ yếu được thiết kế cho Computer Vision (CV) . Các mô hình CV, chẳng hạn như các mô hình YOLO Ultralytics (ví dụ: YOLOv8 , YOLOv9 , YOLOv10 và YOLO11 ), chuyên dùng để diễn giải thông tin trực quan từ hình ảnh hoặc video. Nhiệm vụ của chúng bao gồm phát hiện đối tượng , phân loại hình ảnh và phân đoạn trường hợp .

Tuy nhiên, ranh giới đang mờ dần với sự gia tăng của các Mô hình đa phương thức và Mô hình ngôn ngữ thị giác (VLM) . Các mô hình này, như GPT-4o của OpenAI hoặc Google Gemini, tích hợp sự hiểu biết trên nhiều phương thức khác nhau (ví dụ: văn bản và hình ảnh), cho phép thực hiện các nhiệm vụ như mô tả hình ảnh hoặc trả lời các câu hỏi về nội dung trực quan.

Các nền tảng như Ultralytics HUB cung cấp các công cụ và cơ sở hạ tầng để đào tạo và triển khai nhiều mô hình AI khác nhau, bao gồm cả các mô hình cho nhiệm vụ thị giác, tạo điều kiện thuận lợi cho việc phát triển các ứng dụng AI đa dạng. Khi LLM và các mô hình AI khác trở nên mạnh mẽ hơn, các cân nhắc xung quanh Đạo đức AI , thiên kiến thuật toán và quyền riêng tư dữ liệu ngày càng trở nên quan trọng. Để biết thêm thông tin về các khái niệm AI và so sánh mô hình, hãy khám phá tài liệu Ultralytics và các trang so sánh mô hình .

Mô hình ngôn ngữ lớn (LLM)

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Sự định nghĩa

Ứng dụng

Các khái niệm chính

LLM so với Mô hình thị giác máy tính

Đọc thêm blog

Tham gia Ultralytics cộng đồng