Khám phá Tinh chỉnh hiệu quả tham số (PEFT) để điều chỉnh các mô hình AI lớn với nguồn lực tối thiểu. Tiết kiệm chi phí, ngăn ngừa overfitting và tối ưu hóa việc triển khai!
Tinh chỉnh Hiệu quả Tham số (PEFT) là một chiến lược tinh vi trong học máy (ML) được thiết kế để điều chỉnh các mô hình lớn, được đào tạo trước cho các tác vụ hạ nguồn cụ thể mà không cần gánh nặng tính toán của việc đào tạo lại toàn bộ mạng. Khi các mô hình nền tảng trong các lĩnh vực như xử lý ngôn ngữ tự nhiên và thị giác máy tính (CV) đã mở rộng lên hàng tỷ tham số, thì việc tinh chỉnh truyền thống — cập nhật mọi trọng số trong mô hình — đã trở nên quá tốn kém đối với nhiều người dùng. PEFT giải quyết vấn đề này bằng cách đóng băng phần lớn các trọng số mô hình được đào tạo trước và chỉ cập nhật một tập hợp nhỏ các tham số hoặc thêm một vài lớp mới có thể đào tạo được. Phương pháp này giảm đáng kể rào cản phần cứng, cho phép các nhà nghiên cứu và kỹ sư tùy chỉnh các mô hình tiên tiến bằng cách sử dụng GPU cấp độ người tiêu dùng trong khi vẫn duy trì hiệu suất tương đương với đào tạo đầy đủ.
Khái niệm cốt lõi đằng sau PEFT là học chuyển giao , trong đó một mô hình tận dụng kiến thức thu được từ một tập dữ liệu khổng lồ (như ImageNet hoặc Common Crawl) để giải quyết các vấn đề mới với dữ liệu hạn chế. Không giống như tinh chỉnh hoàn toàn, PEFT điều chỉnh kiến trúc mô hình hoặc quy trình đào tạo để "hiệu quả về tham số". Điều này tạo ra một dung lượng nhỏ cho mô hình đã điều chỉnh, thường chỉ vài megabyte, so với hàng gigabyte cần thiết cho một bản sao mô hình đầy đủ. Hiệu quả này rất quan trọng để ngăn ngừa tình trạng quên thảm khốc , một hiện tượng mà mô hình mất đi các khả năng chung ban đầu trong khi học thông tin mới.
Các kỹ thuật phổ biến trong phạm vi PEFT bao gồm:
PEFT đóng vai trò quan trọng trong việc dân chủ hóa quyền truy cập vào các công cụ AI mạnh mẽ trong nhiều ngành công nghiệp khác nhau.
Trong bối cảnh của Ultralytics Trong các mô hình, hiệu quả tham số thường đạt được bằng cách "đóng băng" các lớp xương sống của mạng trong quá trình huấn luyện. Điều này đảm bảo rằng các lớp trích xuất đặc trưng không thay đổi, và chỉ có phần đầu (phần của mô hình chịu trách nhiệm đưa ra dự đoán cuối cùng) được cập nhật.
Ví dụ sau đây minh họa cách triển khai một hình thức đào tạo hiệu quả về tham số đơn giản với Ultralytics YOLO bằng cách đóng băng 10 lớp đầu tiên của mô hình.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")
# Train the model on a specific dataset
# The 'freeze=10' argument freezes the first 10 layers (the backbone)
# This reduces the number of trainable parameters significantly
results = model.train(data="coco8.yaml", epochs=5, freeze=10)
Hiểu được sự khác biệt giữa PEFT và các thuật ngữ tương tự là rất quan trọng để lựa chọn chiến lược phù hợp:
Bằng cách giảm thiểu chi phí tính toán để thích ứng, PEFT cho phép tạo ra các mô hình chuyên biệt cao cho các nhiệm vụ từ nhận thức về phương tiện tự hành đến phân tích hình ảnh vệ tinh , giúp AI tiên tiến có thể tiếp cận được với cộng đồng nhà phát triển rộng lớn hơn.