Thuật ngữ

Mô hình nền tảng

Khám phá cách các mô hình nền tảng cách mạng hóa AI với kiến trúc có khả năng mở rộng, đào tạo trước rộng rãi và khả năng thích ứng cho nhiều ứng dụng khác nhau.

Mô hình nền tảng là mô hình Trí tuệ nhân tạo (AI) quy mô lớn được đào tạo trước trên lượng lớn dữ liệu rộng, không có nhãn, được thiết kế để thích ứng hoặc tinh chỉnh cho nhiều tác vụ hạ nguồn. Các mô hình này, thường dựa trên các kiến trúc như Transformer , học các mẫu chung, cấu trúc và biểu diễn từ dữ liệu, tạo thành cơ sở linh hoạt cho nhiều ứng dụng chuyên biệt khác nhau mà không cần đào tạo riêng cho từng tác vụ từ đầu. Sự phát triển của các mô hình nền tảng đại diện cho sự thay đổi mô hình đáng kể trong Học máy (ML) , hướng tới việc xây dựng các mô hình đa năng có thể chuyên môn hóa hiệu quả.

Đặc điểm chính

Mô hình nền tảng được xác định bởi một số thuộc tính cốt lõi:

Quy mô: Chúng thường rất lớn, bao gồm hàng tỷ hoặc thậm chí hàng nghìn tỷ tham số và được đào tạo trên các tập dữ liệu khổng lồ, thường được lấy từ internet hoặc các nguồn rộng lớn khác ( Dữ liệu lớn ).
Tiền đào tạo: Chúng trải qua giai đoạn tiền đào tạo chuyên sâu, thường sử dụng phương pháp học có giám sát hoặc không giám sát, trong đó mô hình học từ cấu trúc vốn có của dữ liệu mà không có nhãn rõ ràng.
Khả năng thích ứng: Một lợi ích chính là khả năng thích ứng của chúng. Sau khi được đào tạo trước, chúng có thể được tinh chỉnh với lượng dữ liệu được gắn nhãn tương đối nhỏ cho các tác vụ cụ thể như phân tích tình cảm , nhận dạng hình ảnh hoặc phát hiện đối tượng , tận dụng kiến thức chung thu được trong quá trình đào tạo trước. Quá trình này là một hình thức học chuyển giao .
Đồng nhất hóa: Chúng có xu hướng hợp nhất các khả năng trước đây đòi hỏi nhiều mô hình chuyên biệt thành một khuôn khổ duy nhất, có khả năng thích ứng, có khả năng đơn giản hóa MLOps .

Mô hình nền tảng hoạt động như thế nào

Việc tạo và sử dụng mô hình nền tảng thường bao gồm hai giai đoạn:

Tiền đào tạo: Mô hình được đào tạo trên một tập dữ liệu lớn, đa dạng. Đối với các mô hình ngôn ngữ như GPT-3 , điều này liên quan đến việc dự đoán từ tiếp theo trong một câu. Đối với các mô hình thị giác, nó có thể liên quan đến việc tái tạo các mảng hình ảnh được che giấu hoặc học các mối liên kết giữa hình ảnh và văn bản ( CLIP ). Giai đoạn này đòi hỏi các tài nguyên tính toán đáng kể ( GPU , TPU ).
Tinh chỉnh/Thích ứng: Mô hình được đào tạo trước sau đó được điều chỉnh cho một tác vụ hạ lưu cụ thể bằng cách sử dụng một tập dữ liệu được gắn nhãn nhỏ hơn, cụ thể cho tác vụ. Các kỹ thuật như tinh chỉnh điều chỉnh trọng số mô hình , trong khi các phương pháp như kỹ thuật nhắc nhở hướng dẫn đầu ra của mô hình mà không thay đổi trọng số của nó, đặc biệt liên quan đến Mô hình ngôn ngữ lớn (LLM) .

Ví dụ và ứng dụng

Các mô hình nền tảng trải dài trên nhiều lĩnh vực khác nhau:

Xử lý ngôn ngữ tự nhiên (NLP) : Các LLM như BERT và GPT-4 là những ví dụ điển hình, có khả năng tạo văn bản , dịch thuật, tóm tắt, v.v. Ví dụ thực tế: Các chatbot dịch vụ khách hàng nâng cao hiểu được ngữ cảnh và cung cấp phản hồi sắc thái thường được xây dựng bằng cách tinh chỉnh các LLM nền tảng.
Thị giác máy tính (CV) : Các mô hình như Vision Transformer (ViT) và Segment Anything Model ( SAM ) hoạt động như các mô hình nền tảng cho các tác vụ thị giác. Chúng có thể được điều chỉnh để phân loại hình ảnh , phân đoạn hình ảnh và phát hiện. Ví dụ thực tế: Các công cụ phân tích hình ảnh y tế có thể được phát triển bằng cách tinh chỉnh mô hình nền tảng thị giác trên các tập dữ liệu X-quang hoặc MRI để phát hiện các tình trạng cụ thể như khối u.
Mô hình đa phương thức : Các mô hình như CLIP hoặc DALL-E xử lý thông tin từ nhiều phương thức (ví dụ: văn bản và hình ảnh) cùng lúc. Việc hiểu các mô hình này rất quan trọng khi AI phát triển ( Hiểu mô hình ngôn ngữ thị giác ).

Mô hình nền tảng so với các mô hình khác

Mô hình nhiệm vụ cụ thể: Không giống như mô hình nền tảng, ML truyền thống thường liên quan đến việc đào tạo mô hình từ đầu trên các tập dữ liệu cụ thể cho các nhiệm vụ đơn lẻ (ví dụ: đào tạo mô hình YOLO Ultralytics chỉ để phát hiện các vật thể trong hình ảnh trên không ). Mặc dù hiệu quả, nhưng điều này đòi hỏi dữ liệu được gắn nhãn đáng kể và nỗ lực cho mỗi nhiệm vụ mới. Các mô hình nền tảng hướng đến mục tiêu giảm thiểu điều này thông qua học chuyển giao.
Mô hình ngôn ngữ lớn (LLM): LLM là một loại mô hình nền tảng nổi bật được thiết kế riêng cho các nhiệm vụ ngôn ngữ. Thuật ngữ "mô hình nền tảng" rộng hơn và bao gồm các mô hình cho thị giác, âm thanh và các phương thức khác.
Các mô hình CV: Trong khi một số mô hình tầm nhìn lớn như ViT hoặc SAM được coi là mô hình nền tảng, nhiều mô hình CV, bao gồm các phiên bản cụ thể của YOLOv8 hoặc YOLO11 được đào tạo cho các ứng dụng cụ thể ( AI trong nông nghiệp , AI trong ô tô ), thường được tinh chỉnh hoặc đào tạo cụ thể cho các tác vụ thị giác đó thay vì là các mô hình cơ sở mục đích chung. Tuy nhiên, xu hướng sử dụng xương sống được đào tạo trước chia sẻ ý tưởng cốt lõi là tận dụng các tính năng chung.

Đào tạo và Tài nguyên

Các mô hình nền tảng đào tạo trước tốn kém về mặt tính toán, thường yêu cầu các cụm GPU hoặc TPU lớn và nỗ lực kỹ thuật đáng kể, thường được thực hiện bởi các phòng thí nghiệm nghiên cứu lớn hoặc các tập đoàn như Google , Meta AI và OpenAI . Tuy nhiên, sau khi được đào tạo trước, các mô hình này có thể được điều chỉnh hiệu quả hơn. Các nền tảng như Ultralytics HUB cung cấp các công cụ để đào tạo các mô hình tùy chỉnh , quản lý tập dữ liệu ( Ultralytics Datasets ) và triển khai các giải pháp ( Model Deployment Options ), thường tận dụng các trọng số được đào tạo trước bao gồm kiến thức nền tảng. Việc điều chỉnh hiệu quả vẫn đòi hỏi phải điều chỉnh siêu tham số cẩn thận và có khả năng tăng cường dữ liệu .

Tầm quan trọng và Tương lai

Các mô hình nền tảng đang thay đổi bối cảnh AI ( Roboflow về các mô hình nền tảng ). Chúng đẩy nhanh quá trình phát triển, cho phép các ứng dụng mới và đưa ra những cân nhắc quan trọng xung quanh đạo đức AI , sự thiên vị và khả năng truy cập tính toán. Các tổ chức nghiên cứu như Trung tâm nghiên cứu về các mô hình nền tảng (CRFM) của Stanford đang tận tâm nghiên cứu khả năng và tác động xã hội của chúng. Tương lai có thể liên quan đến các mô hình nền tảng mạnh mẽ hơn, hiệu quả hơn và có khả năng đa phương thức thúc đẩy sự đổi mới trong khoa học, công nghiệp và cuộc sống hàng ngày ( Các trường hợp sử dụng AI ).

Mô hình nền tảng

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM