Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình nền tảng

Khám phá cách các mô hình nền tảng cách mạng hóa AI với kiến trúc có khả năng mở rộng, huấn luyện trước trên diện rộng và khả năng thích ứng cho các ứng dụng đa dạng.

Mô hình nền tảng là một hệ thống Học máy (ML) quy mô lớn được đào tạo trên một lượng lớn dữ liệu rộng, có thể được điều chỉnh cho nhiều tác vụ hạ nguồn. Được Viện Trí tuệ Nhân tạo Lấy Con người Làm Trung tâm Stanford (HAI) đặt ra, những mô hình này đại diện cho một sự thay đổi mô hình trong Trí tuệ Nhân tạo (AI), nơi một mô hình duy nhất học các mẫu chung, cú pháp và mối quan hệ ngữ nghĩa trong giai đoạn tiền đào tạo tốn nhiều tài nguyên. Sau khi được đào tạo, "nền tảng" này đóng vai trò là điểm khởi đầu linh hoạt mà các nhà phát triển có thể điều chỉnh cho các ứng dụng cụ thể thông qua tinh chỉnh , giảm đáng kể nhu cầu xây dựng các mô hình chuyên biệt từ đầu.

Đặc điểm và cơ chế cốt lõi

Sức mạnh của các mô hình nền tảng nằm ở quy mô và phương pháp học chuyển giao . Không giống như các mô hình truyền thống được đào tạo cho một mục đích duy nhất (như phân loại một loài hoa cụ thể), các mô hình nền tảng tiếp nhận các tập dữ liệu khổng lồ - thường bao gồm văn bản, hình ảnh hoặc âm thanh - bằng cách sử dụng các kỹ thuật học tự giám sát . Điều này cho phép chúng thể hiện "các thuộc tính nổi bật", cho phép chúng thực hiện các nhiệm vụ mà chúng không được lập trình rõ ràng để làm.

Các cơ chế chính bao gồm:

  • Tiền đào tạo: Mô hình chạy trên hàng nghìn GPU để xử lý hàng terabyte dữ liệu, tìm hiểu cấu trúc cơ bản của thông tin.
  • Khả năng thích ứng: Thông qua tinh chỉnh hiệu quả tham số (PEFT) , kiến thức rộng về mô hình nền tảng được thu hẹp lại để thực hiện xuất sắc một nhiệm vụ cụ thể, chẳng hạn như phân tích hình ảnh y tế hoặc xem xét tài liệu pháp lý.
  • Kiến trúc Transformer: Hầu hết các mô hình nền tảng hiện đại đều dựa trên kiến trúc Transformer , sử dụng cơ chế chú ý để cân nhắc tầm quan trọng của các bộ phận đầu vào khác nhau một cách hiệu quả.

Các Ứng dụng Thực tế

Các mô hình nền tảng đã thúc đẩy sự bùng nổ của AI tạo sinh và đang chuyển đổi nhiều ngành công nghiệp khác nhau:

  1. Xử lý Ngôn ngữ Tự nhiên (NLP): Các mô hình như GPT-4 của OpenAI hoạt động như các mô hình nền tảng cho văn bản. Chúng hỗ trợ các trợ lý ảo có khả năng lập trình, dịch thuật và viết sáng tạo. Bằng cách tinh chỉnh các mô hình này, các công ty tạo ra các tác nhân AI được thiết kế riêng cho hỗ trợ khách hàng hoặc tài liệu kỹ thuật.
  2. Thị giác Máy tính (CV): Trong lĩnh vực thị giác, các mô hình như Vision Transformer (ViT) hoặc CLIP (Tiền huấn luyện Ngôn ngữ-Hình ảnh Tương phản) đóng vai trò là nền tảng. Ví dụ, một xương sống được huấn luyện trước mạnh mẽ cho phép Ultralytics YOLO11 hoạt động như một công cụ nền tảng để phát hiện vật thể . Một công ty logistics có thể tinh chỉnh khả năng được huấn luyện trước này để detect cụ thể các kiện hàng trên băng chuyền , tận dụng kiến thức trước đây của mô hình về hình dạng và kết cấu để đạt được độ chính xác cao với dữ liệu được gắn nhãn tối thiểu.

Mô hình nền tảng so với các khái niệm liên quan

Điều quan trọng là phải phân biệt các mô hình nền tảng với các thuật ngữ tương tự trong bối cảnh AI:

  • so với Mô hình Ngôn ngữ Lớn (LLM): LLM là một loại mô hình nền tảng cụ thể được thiết kế riêng cho các tác vụ văn bản và ngôn ngữ. Thuật ngữ "mô hình nền tảng" rộng hơn và bao gồm các mô hình đa phương thức xử lý hình ảnh, âm thanh và dữ liệu cảm biến.
  • so với Trí tuệ Nhân tạo Tổng quát (AGI): Mặc dù các mô hình nền tảng mô phỏng một số khía cạnh của trí tuệ tổng quát, chúng không phải là AGI . Chúng dựa vào các mẫu thống kê học được từ dữ liệu đào tạo và thiếu ý thức hoặc lý luận thực sự, mặc dù các nhà nghiên cứu tại Google DeepMind vẫn đang tiếp tục khám phá những ranh giới này.
  • so với ML truyền thống: Học có giám sát truyền thống thường yêu cầu huấn luyện mô hình từ khởi tạo ngẫu nhiên. Các mô hình nền tảng dân chủ hóa AI bằng cách cung cấp trạng thái khởi đầu "có hiểu biết", giảm đáng kể rào cản gia nhập để tạo ra các ứng dụng hiệu suất cao.

Triển khai thực tế

Việc sử dụng mô hình nền tảng thường liên quan đến việc tải các trọng số được đào tạo trước và đào tạo chúng thêm trên một tập dữ liệu tùy chỉnh nhỏ hơn. ultralytics thư viện hợp lý hóa quy trình này cho các nhiệm vụ thị giác, cho phép người dùng tận dụng các khả năng cơ bản của YOLO11 .

Ví dụ sau đây minh họa cách tải một chương trình được đào tạo trước YOLO11 mô hình (nền tảng) và tinh chỉnh nó cho một nhiệm vụ phát hiện cụ thể:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (acts as the foundation)
# 'yolo11n.pt' contains weights learned from the massive COCO dataset
model = YOLO("yolo11n.pt")

# Fine-tune the model on a specific dataset (Transfer Learning)
# This adapts the model's general vision capabilities to new classes
model.train(data="coco8.yaml", epochs=5)

Thách thức và triển vọng tương lai

Mặc dù mạnh mẽ, các mô hình nền tảng vẫn đặt ra những thách thức liên quan đến độ lệch dữ liệu và chi phí tính toán đào tạo cao. Bài báo quan trọng về các mô hình nền tảng nêu bật những rủi ro của việc đồng nhất hóa, khi một lỗi trong nền tảng lan truyền đến tất cả các quá trình điều chỉnh tiếp theo. Do đó, nghiên cứu về đạo đức và an toàn AI đang trở thành trọng tâm trong quá trình phát triển của chúng. Nhìn về tương lai, ngành công nghiệp đang hướng tới AI đa phương thức , nơi các mô hình nền tảng đơn lẻ có thể lập luận liền mạch trên video, văn bản và âm thanh, mở đường cho các phương tiện tự hành và robot toàn diện hơn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay