Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình ngôn ngữ lớn (Large Language Model - LLM)

Khám phá cách Mô hình Ngôn ngữ Lớn (LLM) tạo ra cuộc cách mạng trong AI với NLP nâng cao, cung cấp sức mạnh cho chatbot, tạo nội dung, v.v. Tìm hiểu các khái niệm chính!

A Large Language Model (LLM) is a sophisticated type of Artificial Intelligence (AI) trained on massive datasets to understand, generate, and manipulate human language. These models represent a significant evolution in Deep Learning (DL), utilizing neural networks with billions of parameters to capture complex linguistic patterns, grammar, and semantic relationships. At their core, most modern LLMs rely on the Transformer architecture, which allows them to process sequences of data in parallel rather than sequentially. This architecture employs a self-attention mechanism, enabling the model to weigh the importance of different words in a sentence relative to one another, regardless of their distance in the text.

Các cơ chế cốt lõi của LLM

Chức năng của mô hình học ngôn ngữ tuyến tính (LLM) bắt đầu bằng quá trình mã hóa từ (tokenization ), trong đó văn bản thô được chia nhỏ thành các đơn vị nhỏ hơn gọi là token (từ hoặc từ con). Trong giai đoạn huấn luyện mô hình, hệ thống phân tích hàng petabyte văn bản từ internet, sách và bài báo. Nó tham gia vào quá trình học không giám sát để dự đoán token tiếp theo trong một chuỗi, từ đó học được cấu trúc thống kê của ngôn ngữ.

Sau quá trình đào tạo ban đầu này, các nhà phát triển thường tinh chỉnh mô hình để chuyên biệt hóa cho các nhiệm vụ khác nhau, chẳng hạn như phân tích y tế hoặc hỗ trợ lập trình. Khả năng thích ứng này là lý do tại sao các tổ chức như Trung tâm Nghiên cứu về Mô hình Nền tảng Stanford lại được đánh giá cao. classify Chúng được xem như "mô hình nền tảng" - những cơ sở rộng lớn mà trên đó các ứng dụng cụ thể được xây dựng.

Các Ứng dụng Thực tế

Các chương trình LLM đã vượt ra khỏi phạm vi nghiên cứu lý thuyết để ứng dụng thực tiễn, mang lại tác động lớn trong nhiều ngành công nghiệp khác nhau:

  • Intelligent Virtual Assistants: Modern customer service relies heavily on chatbots powered by LLMs. Unlike older rule-based systems, these agents can handle nuanced queries. To improve accuracy and reduce hallucinations, developers integrate Retrieval Augmented Generation (RAG), allowing the model to reference external, up-to-date company documentation before answering.
  • Multimodal Vision-Language Systems: The frontier of AI connects text with visual data. Vision-Language Models (VLMs) allow users to query images using natural language. For instance, combining a linguistic interface with a robust detector like YOLO26 enables systems to identify and describe objects in real-time video feeds based on spoken commands.

Kết nối văn bản và hình ảnh bằng mã lập trình

While standard LLMs process text, the industry is shifting toward Multimodal AI. The following example demonstrates how linguistic prompts can control computer vision tasks using YOLO-World, a model that understands text descriptors for open-vocabulary detection.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt LLM với các thuật ngữ rộng hơn hoặc tương đương:

  • LLM vs. Natural Language Processing (NLP): NLP is the overarching academic field concerned with the interaction between computers and human language. An LLM is a specific tool or technology used within that field to achieve state-of-the-art results.
  • LLM vs. Generative AI: Generative AI is a category that encompasses any AI capable of creating new content. LLMs are the text-based subset of this category, whereas models like Stable Diffusion represent the image-generation subset.

Thách thức và triển vọng tương lai

Mặc dù có nhiều khả năng, các mô hình học máy tuyến tính (LLM) vẫn phải đối mặt với những thách thức liên quan đến sự thiên vị trong trí tuệ nhân tạo , vì chúng có thể vô tình tái tạo những định kiến được tìm thấy trong dữ liệu huấn luyện của mình. Hơn nữa, sức mạnh tính toán khổng lồ cần thiết để huấn luyện các mô hình như GPT-4 hoặc Google Gemini làm dấy lên lo ngại về mức tiêu thụ năng lượng. Nghiên cứu hiện đang tập trung vào lượng tử hóa mô hình để làm cho các hệ thống này đủ hiệu quả để chạy trên phần cứng biên.

Để hiểu sâu hơn về mặt kỹ thuật, bài báo gốc "Attention Is All You Need" cung cấp lý thuyết nền tảng cho Transformer. Bạn cũng có thể tìm hiểu cách NVIDIA tối ưu hóa phần cứng cho các khối lượng công việc khổng lồ này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay