Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mô hình nền tảng

Khám phá cách các mô hình nền tảng cách mạng hóa AI với kiến trúc có khả năng mở rộng, huấn luyện trước trên diện rộng và khả năng thích ứng cho các ứng dụng đa dạng.

Mô hình nền tảng (foundation model) là một mô hình Học máy (ML) quy mô lớn được huấn luyện trên một lượng lớn dữ liệu rộng, chưa được gắn nhãn và có thể được điều chỉnh cho một loạt các tác vụ hạ nguồn. Được đặt ra bởi Viện AI lấy con người làm trung tâm Stanford, khái niệm cốt lõi là "các thuộc tính mới nổi", trong đó mô hình phát triển một sự hiểu biết linh hoạt đáng ngạc nhiên về các mẫu, cú pháp và ngữ nghĩa từ dữ liệu mà nó được huấn luyện. Bản chất mục đích chung này cho phép nó đóng vai trò là một điểm khởi đầu mạnh mẽ, hoặc "nền tảng", để tạo ra các mô hình chuyên biệt hơn thông qua một quy trình gọi là tinh chỉnh (fine-tuning).

Các Đặc điểm và Ứng dụng Chính

Đặc điểm xác định của các mô hình nền tảng (foundation models) là khả năng thích ứng của chúng, bắt nguồn từ mô hình học chuyển giao (transfer learning). Thay vì huấn luyện một mô hình mới từ đầu cho mọi vấn đề, các nhà phát triển có thể lấy một mô hình nền tảng tiền huấn luyện và điều chỉnh nó với một tập dữ liệu nhỏ hơn, dành riêng cho tác vụ. Điều này làm giảm đáng kể dữ liệu, tính toán và thời gian cần thiết để xây dựng hệ thống AI hiệu suất cao.

Các ứng dụng thực tế thể hiện tính linh hoạt của chúng:

  1. Chatbot và Trợ lý ảo Nâng cao: Một Mô hình Ngôn ngữ Lớn (LLM) như GPT-4 của OpenAI đóng vai trò là mô hình nền tảng cho ngôn ngữ. Nó được huấn luyện trước trên một lượng lớn văn bản trên internet để hiểu ngữ pháp, sự kiện và kỹ năng lập luận. Sau đó, một công ty có thể tinh chỉnh nó bằng các tài liệu nội bộ và nhật ký tương tác với khách hàng để tạo ra một chatbot chuyên biệt, có thể trả lời các câu hỏi cụ thể về sản phẩm hoặc dịch vụ của mình với độ chính xác cao.
  2. Phân tích ảnh y tế: Trong thị giác máy tính, một mô hình như Mô hình Phân đoạn Mọi thứ (SAM) của Meta AI là một mô hình nền tảng cho phân đoạn hình ảnh. Nó có thể xác định và phác thảo các đối tượng trong bất kỳ hình ảnh nào mà không cần ngữ cảnh trước. Các nhà nghiên cứu y tế sau đó có thể tinh chỉnh mô hình này trên một tập hợp nhỏ hơn các bản quét MRI hoặc CT để phân đoạn chính xác các cơ quan cụ thể hoặc phát hiện các bất thường như khối u, đẩy nhanh quá trình chẩn đoán cho phân tích ảnh y tế.

Mô hình nền tảng so với các mô hình khác

Điều quan trọng là phải phân biệt mô hình nền tảng (foundation models) với các khái niệm liên quan:

  • Mô hình dành riêng cho tác vụ (Task-Specific Models): Theo truyền thống, ML liên quan đến việc huấn luyện các mô hình từ đầu cho một mục đích duy nhất, chẳng hạn như huấn luyện mô hình Ultralytics YOLO chỉ để phát hiện các gói hàng trong lĩnh vực logistics. Mặc dù hiệu quả, phương pháp này đòi hỏi dữ liệu được gắn nhãn đáng kể cho mỗi tác vụ mới. Các mô hình nền tảng (Foundation models) cung cấp một giải pháp thay thế hiệu quả hơn.
  • Các mô hình ngôn ngữ lớn (LLMs): LLM là một loại nổi bật của mô hình nền tảng (foundation model) tập trung vào các tác vụ ngôn ngữ. Tuy nhiên, thuật ngữ "mô hình nền tảng" rộng hơn, bao gồm các mô hình cho thị giác, âm thanh và các phương thức dữ liệu khác, như được trình bày chi tiết trong bài báo mang tính bước ngoặt "Về cơ hội và rủi ro của các mô hình nền tảng."
  • Các mô hình thị giác chuyên dụng: Mặc dù các mô hình thị giác lớn như Vision Transformer (ViT) được coi là các mô hình nền tảng, nhưng nhiều mô hình CV chuyên dụng thì không. Ví dụ: một mô hình YOLO11 được tinh chỉnh cho một ứng dụng cụ thể như AI trong ô tô là một mô hình chuyên dụng. Tuy nhiên, nó tận dụng một backbone được huấn luyện trước, thể hiện kiến thức nền tảng có được từ các tập dữ liệu lớn như COCO.

Đào tạo và Tầm quan trọng trong tương lai

Huấn luyện trước các mô hình nền tảng là một nỗ lực tốn nhiều tài nguyên, thường đòi hỏi hàng nghìn GPU và các nỗ lực kỹ thuật lớn, thường được thực hiện bởi các tổ chức lớn như Google AIDeepMind. Tuy nhiên, sau khi được huấn luyện, các mô hình này được cung cấp để sử dụng rộng rãi hơn.

Các nền tảng như Ultralytics HUB cung cấp các công cụ để giúp người dùng điều chỉnh các khả năng cơ bản này bằng cách hợp lý hóa quy trình làm việc để huấn luyện các mô hình tùy chỉnh, quản lý bộ dữ liệu và triển khai các giải pháp, thường với điều chỉnh siêu tham số cẩn thận.

Các mô hình nền tảng đang thay đổi bối cảnh AI bằng cách dân chủ hóa quyền truy cập vào các khả năng mạnh mẽ. Sự trỗi dậy của chúng cũng mang đến những cuộc thảo luận quan trọng về đạo đức AI, sự thiên vị của tập dữ liệukhoảng cách điện toán. Tương lai hướng tới các mô hình đa phương thức mạnh mẽ, hiệu quả hơn, có thể hiểu và xử lý thông tin từ văn bản, hình ảnh và âm thanh đồng thời, thúc đẩy làn sóng các trường hợp sử dụng AI tiếp theo.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard