Thuật ngữ

Điều chỉnh hiệu quả tham số (PEFT)

Khám phá Parameter-Efficient Fine-Tuning (PEFT) để điều chỉnh các mô hình AI lớn với tài nguyên tối thiểu. Tiết kiệm chi phí, ngăn ngừa quá mức và tối ưu hóa việc triển khai!

Tinh chỉnh Hiệu quả Tham số (PEFT) là một tập hợp các kỹ thuật được sử dụng trong học máy để điều chỉnh các mô hình lớn đã được đào tạo trước cho các tác vụ mới, cụ thể mà không cần phải đào tạo lại toàn bộ mô hình. Khi các mô hình nền tảng trong các lĩnh vực như Xử lý Ngôn ngữ Tự nhiên (NLP)Thị giác Máy tính (CV) phát triển lên đến hàng tỷ tham số, việc tinh chỉnh hoàn toàn trở nên tốn kém về mặt tính toán và yêu cầu lưu trữ dữ liệu đáng kể cho mỗi tác vụ mới. PEFT giải quyết vấn đề này bằng cách đóng băng phần lớn trọng số của mô hình đã được đào tạo trước và chỉ đào tạo một số ít các tham số bổ sung hoặc hiện có. Cách tiếp cận này giúp giảm đáng kể chi phí tính toán và lưu trữ, giảm nguy cơ quên thảm khốc (khi một mô hình quên các khả năng ban đầu của nó) và giúp tùy chỉnh một mô hình lớn duy nhất cho nhiều ứng dụng khác nhau.

PEFT hoạt động như thế nào?

Nguyên tắc cốt lõi của PEFT là thực hiện những thay đổi tối thiểu, có mục tiêu trên một mô hình đã được đào tạo trước. Thay vì cập nhật mọi tham số, phương pháp PEFT đưa ra một tập hợp nhỏ các tham số có thể đào tạo được hoặc chọn một tập hợp con rất nhỏ các tham số hiện có để cập nhật trong quá trình đào tạo. Đây là một hình thức học chuyển giao giúp tối ưu hóa hiệu quả. Có một số phương pháp PEFT phổ biến, mỗi phương pháp có một chiến lược riêng:

  • LoRA (Thích ứng bậc thấp) : Kỹ thuật này đưa các ma trận bậc thấp nhỏ, có thể huấn luyện được vào các lớp của mô hình đã được huấn luyện trước, thường nằm trong cơ chế chú ý . Các ma trận "thích ứng" này nhỏ hơn đáng kể so với các ma trận trọng số ban đầu, giúp việc huấn luyện nhanh chóng và hiệu quả. Bài báo nghiên cứu LoRA ban đầu cung cấp nhiều chi tiết kỹ thuật hơn.
  • Điều chỉnh Gợi ý : Thay vì sửa đổi kiến trúc của mô hình, phương pháp này giữ mô hình hoàn toàn đóng băng và học một tập hợp các "lời nhắc mềm" hoặc các vectơ nhúng có thể huấn luyện được. Các vectơ này được thêm vào chuỗi đầu vào để hướng dẫn đầu ra của mô hình cho một tác vụ cụ thể, như được trình bày chi tiết trong bài báo cơ bản .
  • Điều chỉnh Bộ điều hợp: Phương pháp này bao gồm việc chèn các mô-đun mạng nơ-ron nhỏ, được kết nối đầy đủ, được gọi là "bộ điều hợp", vào giữa các lớp của mô hình đã được đào tạo trước. Chỉ các tham số của các bộ điều hợp mới này mới được đào tạo.

Những phương pháp này và các phương pháp khác có thể được truy cập rộng rãi thông qua các khuôn khổ như thư viện PEFT Hugging Face , giúp đơn giản hóa việc triển khai chúng.

PEFT so với các khái niệm liên quan

Điều quan trọng là phải phân biệt PEFT với các chiến lược điều chỉnh mô hình khác:

  • Tinh chỉnh Toàn diện: Trái ngược với PEFT, tinh chỉnh toàn diện cập nhật tất cả các trọng số của mô hình đã được đào tạo trước. Phương pháp này tốn nhiều tài nguyên, đòi hỏi GPU mạnh và dung lượng lưu trữ lớn cho mỗi phiên bản mô hình được tinh chỉnh.
  • Kỹ thuật Prompt : Kỹ thuật này bao gồm việc thiết kế thủ công các lời nhắc hiệu quả dựa trên văn bản để hướng dẫn hành vi của mô hình. Nó không liên quan đến bất kỳ quá trình đào tạo hay cập nhật tham số nào; nó hoàn toàn là việc tạo ra dữ liệu đầu vào để có được đầu ra mong muốn từ một mô hình đóng băng.
  • Chắt lọc kiến thức : Quá trình này bao gồm việc huấn luyện một mô hình "học viên" nhỏ hơn để mô phỏng hành vi của một mô hình "giáo viên" lớn hơn, đã được huấn luyện trước. Mặc dù tạo ra một mô hình nhỏ hơn, quá trình này vẫn có thể tốn nhiều tài nguyên tính toán.

Ứng dụng trong thế giới thực

PEFT cho phép ứng dụng thực tế các mô hình lớn trên nhiều lĩnh vực khác nhau:

  • Xử lý Ngôn ngữ Tự nhiên (NLP): Một công ty có thể sử dụng PEFT để điều chỉnh một mô hình đa năng như GPT-4 hoặc BERT để tạo ra một chatbot chuyên biệt cho cơ sở tri thức nội bộ của mình. Thay vì đào tạo lại toàn bộ tốn kém, họ có thể sử dụng một phương pháp như LoRA để dạy mô hình thuật ngữ và quy trình cụ thể của công ty, mang lại phản hồi chính xác hơn cho bộ phận chăm sóc khách hàng hoặc hỗ trợ nội bộ. Các nhóm nghiên cứu như Stanford NLP Group đang khám phá những ứng dụng này.
  • Thị giác Máy tính (CV): PEFT có thể tùy chỉnh các mô hình thị giác lớn như Vision Transformers (ViT) hoặc mô hình Ultralytics YOLO cho các tác vụ nhận dạng hình ảnh cụ thể. Ví dụ: một mô hình được đào tạo trước trên tập dữ liệu COCO rộng có thể được điều chỉnh bằng PEFT để phát hiện chính xác các đối tượng có khiếm khuyết đặc biệt trong kiểm soát chất lượng sản xuất , thực hiện phân đoạn hình ảnh chuyên biệt để phân tích hình ảnh y tế hoặc xác định các loài động vật nhất định trong bẫy ảnh bảo tồn động vật hoang dã . Các nền tảng như Ultralytics HUB có thể giúp quản lý các mô hình và thí nghiệm đã được điều chỉnh này.

Về bản chất, Parameter-Efficient Fine-Tuning giúp các mô hình AI tiên tiến trở nên linh hoạt hơn và tiết kiệm chi phí hơn khi điều chỉnh, giúp mọi người có thể tiếp cận các khả năng AI mạnh mẽ cho nhiều ứng dụng cụ thể.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard