Foundation Model
Khám phá sức mạnh của các foundation models trong AI. Tìm hiểu cách thích ứng các mô hình quy mô lớn như Ultralytics YOLO26 cho các tác vụ tùy chỉnh bằng Ultralytics Platform.
Một foundation model đại diện cho bước chuyển đổi mô hình quan trọng trong lĩnh vực Artificial Intelligence (AI). Đây là một machine learning model quy mô lớn được huấn luyện trên khối lượng dữ liệu khổng lồ—thường bao gồm hàng tỷ tham số—có thể được điều chỉnh cho nhiều nhiệm vụ hạ nguồn (downstream tasks) khác nhau. Khác với các mô hình Machine Learning (ML) truyền thống vốn thường được xây dựng cho một mục đích cụ thể, đơn nhất như phân loại một loại hoa nhất định, một foundation model sẽ học các mô hình, cấu trúc và mối quan hệ rộng lớn trong giai đoạn tiền huấn luyện (pre-training) tiêu tốn nhiều tài nguyên. Cơ sở tri thức rộng lớn này cho phép các nhà phát triển áp dụng mô hình vào các vấn đề mới thông qua transfer learning, giúp giảm đáng kể thời gian và dữ liệu cần thiết để đạt được kết quả ở đẳng cấp hiện đại (state-of-the-art).
Link to this sectionCác Cơ chế cốt lõi: Tiền huấn luyện và Thích ứng#
Sức mạnh của một foundation model nằm ở quy trình phát triển hai giai đoạn: tiền huấn luyện và tinh chỉnh (fine-tuning). Trong quá trình tiền huấn luyện, mô hình được tiếp xúc với các tập dữ liệu khổng lồ, chẳng hạn như một phần lớn dữ liệu internet, các thư viện hình ảnh đa dạng hoặc các kho lưu trữ mã nguồn mở rộng. Giai đoạn này thường sử dụng self-supervised learning, một kỹ thuật trong đó mô hình tự tạo ra các nhãn từ chính cấu trúc dữ liệu, loại bỏ nút thắt cổ chai của việc data annotation thủ công. Ví dụ, một language model có thể học cách dự đoán từ tiếp theo trong câu, trong khi một vision model học cách hiểu về các đường biên, kết cấu và tính bền vững của đối tượng.
Sau khi được tiền huấn luyện, mô hình đóng vai trò là một điểm khởi đầu linh hoạt. Thông qua quy trình gọi là fine-tuning, các nhà phát triển có thể tinh chỉnh trọng số của mô hình trên một tập dữ liệu nhỏ hơn, chuyên biệt theo lĩnh vực. Khả năng này là trọng tâm của democratization of AI, vì nó cho phép các tổ chức có nguồn lực tính toán hạn chế có thể tận dụng các kiến trúc mạnh mẽ. Các quy trình làm việc hiện đại thường sử dụng các công cụ như Ultralytics Platform để hợp lý hóa quy trình thích ứng này, cho phép huấn luyện hiệu quả trên các tập dữ liệu tùy chỉnh mà không cần phải xây dựng một neural network từ đầu.
Link to this sectionCác ứng dụng trong thực tế#
Foundation model đóng vai trò là xương sống cho các đổi mới trong nhiều ngành công nghiệp khác nhau. Khả năng tổng quát hóa của chúng khiến chúng có thể áp dụng cho các nhiệm vụ từ xử lý ngôn ngữ tự nhiên đến computer vision tiên tiến.
- Computer Vision trong Chăm sóc sức khỏe: Các vision foundation model chuyên biệt có thể được tinh chỉnh để hỗ trợ medical image analysis. Một mô hình ban đầu được huấn luyện trên các hình ảnh tổng quát có thể được điều chỉnh để phát hiện khối u trong các bản quét MRI hoặc xác định buckle fractures trong phim X-quang. Ứng dụng này chứng minh cách thức hiểu biết về hình ảnh tổng quát chuyển đổi thành các công cụ chẩn đoán cứu người như thế nào.
- Tự động hóa công nghiệp: Trong sản xuất, các vision model như Ultralytics YOLO26 hoạt động như các kiến trúc nền tảng cho object detection. Các nhà máy sử dụng các mô hình này để tự động hóa quality inspection, phát hiện lỗi trên các dây chuyền lắp ráp với tốc độ và độ chính xác cao. Kiến thức sẵn có của mô hình về ranh giới đối tượng giúp tăng tốc việc triển khai các giải pháp smart manufacturing này.
Link to this sectionVí dụ về triển khai kỹ thuật#
Các nhà phát triển có thể tận dụng foundation model để thực hiện các nhiệm vụ phức tạp với mã nguồn tối thiểu. Ví dụ sau đây minh họa cách tải một YOLO26 model đã được tiền huấn luyện—một vision foundation model được tối ưu hóa cho các ứng dụng thời gian thực—và thực hiện object detection trên một hình ảnh.
from ultralytics import YOLO
# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")
# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()Link to this sectionPhân biệt các thuật ngữ chính#
Việc phân biệt "Foundation Model" với các khái niệm liên quan trong hệ sinh thái AI là rất hữu ích để hiểu rõ vai trò cụ thể của chúng:
- Large Language Model (LLM): Một LLM là một loại foundation model được thiết kế đặc biệt để xử lý và tạo văn bản. Trong khi tất cả LLM đều là foundation model, không phải tất cả foundation model đều là LLM; danh mục này còn bao gồm các vision model như SAM (Segment Anything Model) và các hệ thống đa phương thức (multimodal).
- Transfer Learning: Đây là kỹ thuật được sử dụng để áp dụng một foundation model vào một nhiệm vụ mới. Foundation model là tạo tác (artifact - neural network đã lưu), trong khi transfer learning là quá trình cập nhật kiến thức của tạo tác đó cho một trường hợp sử dụng cụ thể, chẳng hạn như pest control in agriculture.
- Generative AI: Điều này đề cập đến các hệ thống có khả năng tạo nội dung mới (văn bản, hình ảnh, mã nguồn). Nhiều foundation model hỗ trợ các ứng dụng Generative AI, nhưng chúng cũng có thể được sử dụng cho các nhiệm vụ phân biệt (discriminative) như phân loại hoặc object tracking vốn không hoàn toàn là "tạo sinh" (generative).
Link to this sectionCác hướng đi và tác động tương lai#
Sự phát triển của các foundation model đang hướng tới multimodal AI, nơi một hệ thống duy nhất có thể xử lý và liên kết thông tin từ văn bản, hình ảnh, âm thanh và dữ liệu cảm biến đồng thời. Nghiên cứu từ các tổ chức như Stanford Institute for Human-Centered AI (HAI) làm nổi bật tiềm năng của các hệ thống này trong việc suy luận về thế giới giống như con người. Khi các mô hình này trở nên hiệu quả hơn, việc triển khai trên các thiết bị edge computing trở nên ngày càng khả thi, mang các khả năng AI mạnh mẽ trực tiếp đến điện thoại thông minh, máy bay không người lái và các cảm biến IoT.






