Ultralytics YOLO

Cách Ultralytics YOLO26 huấn luyện thông minh hơn với ProgLoss, STAL và MuSGD

Tìm hiểu cách Ultralytics YOLO26 huấn luyện đáng tin cậy hơn nhờ Progressive Loss Balancing, Small-Target-Aware Label Assignment và trình tối ưu hóa MuSGD.

ABAbirami Vina

5 min readJanuary 19, 2026

Những cải tiến trong huấn luyện Ultralytics YOLO26: ProgLoss, STAL và MuSGD

Tuần trước, chúng tôi đã phát hành Ultralytics YOLO26, thiết lập một tiêu chuẩn mới cho các mô hình thị giác máy tính thời gian thực ưu tiên thiết bị biên (edge-first). Tương tự như các mô hình Ultralytics YOLO trước đây, chẳng hạn như Ultralytics YOLO11, YOLO26 hỗ trợ các tác vụ thị giác máy tính cốt lõi mà người dùng đã quen thuộc, bao gồm phát hiện đối tượng, phân đoạn thực thể và ước tính tư thế.

Ví dụ về YOLO26 phân đoạn các đối tượng trong ảnh

Hình 1. Ví dụ về YOLO26 được sử dụng để phân đoạn các đối tượng trong ảnh.

Tuy nhiên, YOLO26 không chỉ là một bản cập nhật tăng cường. Mặc dù các tác vụ được hỗ trợ có vẻ quen thuộc, mô hình mới này đại diện cho một bước tiến đổi mới trong cách các mô hình thị giác máy tính được huấn luyện. Với YOLO26, trọng tâm mở rộng ra ngoài hiệu suất inference để làm cho quá trình huấn luyện trở nên ổn định hơn.

YOLO26 được thiết kế với tư duy về toàn bộ vòng đời huấn luyện. Điều này có nghĩa là sự hội tụ nhanh hơn, các lần huấn luyện đáng tin cậy hơn và hành vi mô hình nhất quán. Những cải tiến này đặc biệt quan trọng trong các quy trình làm việc thực tế, nơi độ tin cậy trong huấn luyện ảnh hưởng trực tiếp đến tốc độ lặp lại và triển khai mô hình.

Để thực hiện điều này, YOLO26 giới thiệu một số cải tiến huấn luyện mục tiêu như Progressive Loss Balancing (ProgLoss), Small-Target-Aware Label Assignment (STAL) và bộ tối ưu hóa MuSGD. Cùng nhau, những thay đổi này cải thiện cách loss học tập được cân bằng, cách nhãn được gán và cách tối ưu hóa hoạt động theo thời gian.

Trong bài viết này, chúng tôi sẽ khám phá cách thức hoạt động của từng cơ chế này và lý do tại sao chúng giúp Ultralytics YOLO26 dễ huấn luyện hơn và đáng tin cậy hơn ở quy mô lớn. Hãy cùng bắt đầu!

Link to this sectionUltralytics YOLO26: Được xây dựng để huấn luyện thông minh hơn, không chỉ chạy nhanh hơn#

Ultralytics YOLO26 tinh giản hóa toàn bộ đường ống (pipeline) inference bằng cách loại bỏ sự phụ thuộc vào các bước hậu xử lý như Non-Maximum Suppression. Thay vì tạo ra nhiều dự đoán chồng chéo và lọc chúng sau đó, YOLO26 tạo ra các kết quả phát hiện cuối cùng trực tiếp từ mạng.

Điều này làm cho YOLO26 trở thành mô hình end-to-end, nơi dự đoán, giải quyết trùng lặp và đầu ra cuối cùng đều được học bên trong chính mạng lưới. Điều này đơn giản hóa việc triển khai và cải thiện hiệu suất inference, đồng thời định hình cách mô hình học trong quá trình huấn luyện.

YOLO26 suy luận end-to-end, không cần NMS hiện đại nhất

Hình 2. YOLO26 mang đến khả năng inference end-to-end, không cần NMS hiện đại (Nguồn)

Trong một hệ thống end-to-end như thế này, huấn luyện và inference được kết nối chặt chẽ. Vì không có giai đoạn hậu xử lý bên ngoài để sửa các dự đoán sau đó, mô hình phải học cách đưa ra các quyết định rõ ràng và tự tin ngay trong quá trình huấn luyện.

Điều này làm cho sự căn chỉnh giữa mục tiêu huấn luyện và hành vi inference trở nên đặc biệt quan trọng. Bất kỳ sự không tương thích nào giữa cách mô hình được huấn luyện và cách nó được sử dụng tại thời điểm inference đều có thể dẫn đến việc học không ổn định hoặc hội tụ chậm hơn.

YOLO26 xử lý vấn đề này bằng cách thiết kế quy trình huấn luyện xung quanh việc sử dụng trong thế giới thực ngay từ đầu. Thay vì chỉ tập trung vào tốc độ inference, hệ thống huấn luyện được xây dựng để hỗ trợ học tập ổn định trong thời gian dài, hội tụ nhất quán trên các kích thước mô hình từ Nano đến Extra Large, và hiệu suất mạnh mẽ trên các tập dữ liệu đa dạng.

Link to this sectionCách hai đầu huấn luyện cải thiện khả năng học tập trong Ultralytics YOLO26#

Một trong những cải tiến huấn luyện then chốt trong Ultralytics YOLO26 dựa trên phương pháp huấn luyện hai đầu (two-head) được sử dụng trong các mô hình YOLO trước đây. Trong các mô hình phát hiện đối tượng, một head đề cập đến phần của mạng chịu trách nhiệm đưa ra dự đoán.

Nói cách khác, các đầu phát hiện (detection heads) học cách dự đoán các đối tượng nằm ở đâu trong ảnh và đó là những đối tượng gì. Chúng thực hiện điều này bằng cách hồi quy tọa độ bbox, có nghĩa là chúng học cách ước tính vị trí và kích thước của từng đối tượng trong ảnh đầu vào.

Trong quá trình huấn luyện, mô hình học bằng cách giảm thiểu một giá trị loss, đây là thước đo bằng số về khoảng cách giữa các dự đoán của nó với các câu trả lời đúng hoặc ground truth. Loss thấp hơn có nghĩa là các dự đoán của mô hình gần với ground truth hơn, trong khi loss cao hơn cho thấy sai số lớn hơn. Việc tính toán loss hướng dẫn cách mô hình cập nhật các tham số của nó trong quá trình huấn luyện.

YOLO26 sử dụng hai đầu phát hiện trong quá trình huấn luyện chia sẻ cùng một mô hình cơ sở nhưng phục vụ các mục đích khác nhau. Đầu one-to-one là đầu được sử dụng tại thời điểm inference. Nó học cách liên kết từng đối tượng với một dự đoán duy nhất, tự tin, điều này rất cần thiết cho thiết kế end-to-end, không NMS của YOLO26.

Trong khi đó, đầu one-to-many chỉ được sử dụng trong quá trình huấn luyện. Nó cho phép nhiều dự đoán được liên kết với cùng một đối tượng, cung cấp sự giám sát dày đặc hơn. Tín hiệu học tập phong phú hơn này giúp ổn định quá trình huấn luyện và cải thiện độ chính xác, đặc biệt là trong các giai đoạn đầu.

Trong YOLO26, cả hai đầu đều sử dụng cùng một phép tính loss cho hồi quy box và phân loại. Các triển khai trước đó đã áp dụng một sự cân bằng cố định giữa hai tín hiệu loss này trong suốt quá trình huấn luyện.

Tuy nhiên, trong thực tế, tầm quan trọng của mỗi đầu thay đổi theo thời gian. Sự giám sát dày đặc hữu ích nhất ở giai đoạn đầu, trong khi sự căn chỉnh với hành vi inference trở nên quan trọng hơn sau này trong quá trình huấn luyện. YOLO26 được thiết kế dựa trên cái nhìn sâu sắc này, điều này dẫn trực tiếp đến cách nó cân bằng lại các tín hiệu học tập khi quá trình huấn luyện diễn ra.

Link to this sectionUltralytics YOLO26 sử dụng Progressive Loss Balancing#

Vậy, Ultralytics YOLO26 xử lý các nhu cầu học tập thay đổi này như thế nào trong quá trình huấn luyện? Nó sử dụng Progressive Loss Balancing để điều chỉnh cách các tín hiệu học tập được trọng số theo thời gian.

ProgLoss hoạt động bằng cách thay đổi động mức đóng góp của mỗi đầu vào tổng loss khi quá trình huấn luyện tiến triển. Ban đầu, trọng số cao hơn được đặt vào đầu one-to-many để ổn định quá trình học và cải thiện khả năng recall. Khi quá trình huấn luyện tiếp tục, sự cân bằng dần dần chuyển sang đầu one-to-one, căn chỉnh quá trình huấn luyện chặt chẽ hơn với hành vi inference.

Sự chuyển đổi dần dần này cho phép YOLO26 học theo đúng thứ tự. Thay vì buộc mô hình phải tối ưu hóa các mục tiêu cạnh tranh cùng một lúc, Progressive Loss Balancing ưu tiên tín hiệu học tập hữu ích nhất ở mỗi giai đoạn của quá trình huấn luyện. Kết quả là sự hội tụ mượt mà hơn, ít lần huấn luyện không ổn định hơn và hiệu suất cuối cùng nhất quán hơn.

Link to this sectionSTAL giúp Ultralytics YOLO26 học từ các đối tượng nhỏ như thế nào#

Một cải tiến huấn luyện thú vị khác trong Ultralytics YOLO26 đến từ cách mô hình gán các mục tiêu huấn luyện cho các dự đoán, một quá trình được gọi là gán nhãn (label assignment). Nó chịu trách nhiệm khớp các đối tượng ground truth với các dự đoán ứng viên, thường được gọi là anchors.

Những kết quả khớp này xác định dự đoán nào nhận được sự giám sát và đóng góp vào loss. YOLO26 xây dựng dựa trên một phương pháp gán nhãn hiện có gọi là Task Alignment Learning (TAL), được thiết kế để căn chỉnh tốt hơn việc phân loại và định vị trong quá trình huấn luyện.

Mặc dù TAL hoạt động tốt cho hầu hết các đối tượng, nhưng quá trình huấn luyện đã bộc lộ một hạn chế quan trọng. Trong quá trình khớp, các đối tượng rất nhỏ có thể bị bỏ qua hoàn toàn. Trong thực tế, các đối tượng nhỏ hơn khoảng 8 pixel trong ảnh đầu vào 640 pixel thường không nhận được bất kỳ gán anchor nào. Khi điều này xảy ra, mô hình nhận được rất ít hoặc không nhận được sự giám sát nào cho các đối tượng đó, khiến việc học cách phát hiện chúng một cách đáng tin cậy trở nên khó khăn.

Để giải quyết vấn đề này, YOLO26 giới thiệu Small-Target-Aware Label Assignment (STAL). STAL sửa đổi quá trình gán để đảm bảo rằng các đối tượng nhỏ không bị bỏ qua trong quá trình huấn luyện. Cụ thể, nó thực thi tối thiểu bốn gán anchor cho các đối tượng nhỏ hơn 8 pixel. Điều này đảm bảo rằng ngay cả các đối tượng tí hon cũng liên tục đóng góp vào loss huấn luyện.

Bằng cách tăng cường giám sát cho các mục tiêu nhỏ, STAL cải thiện độ ổn định học tập và hiệu suất phát hiện trong các tình huống mà các đối tượng nhỏ hoặc ở xa rất phổ biến. Cải tiến này đặc biệt quan trọng đối với các ứng dụng YOLO26 ưu tiên thiết bị biên như hình ảnh trên không, robot và các hệ thống Internet of Things (IoT), nơi các đối tượng thường nhỏ, ở xa hoặc nhìn thấy một phần và khả năng phát hiện đáng tin cậy là rất quan trọng.

Link to this sectionUltralytics YOLO26 giới thiệu bộ tối ưu hóa MuSGD#

Để hỗ trợ quá trình huấn luyện ổn định và có thể dự đoán được hơn, Ultralytics YOLO26 cũng giới thiệu một bộ tối ưu hóa mới gọi là MuSGD. Bộ tối ưu hóa này được thiết kế để cải thiện sự hội tụ và độ tin cậy trong huấn luyện ở các mô hình phát hiện end-to-end, đặc biệt là khi kích thước mô hình và độ phức tạp huấn luyện tăng lên.

Để một mạng thần kinh có thể học, và do đó thay đổi các trọng số tương ứng, trong quá trình huấn luyện, chúng ta tính toán một sai số (cũng được gọi là "loss"). Do đó, mô hình đo lường mức độ sai lệch của các dự đoán bằng giá trị loss, tính toán các gradient chỉ ra cách các tham số của nó nên thay đổi, và sau đó cập nhật các tham số đó để giảm sai số. Stochastic Gradient Descent (SGD) là một bộ tối ưu hóa được sử dụng rộng rãi thực hiện các cập nhật này, làm cho việc huấn luyện hiệu quả và có thể mở rộng.

So sánh giữa Stochastic gradient descent và gradient descent

Hình 3. Stochastic gradient descent so với gradient descent (Nguồn)

MuSGD xây dựng trên nền tảng quen thuộc này bằng cách kết hợp các ý tưởng tối ưu hóa lấy cảm hứng từ Muon, một phương pháp được sử dụng trong huấn luyện mô hình ngôn ngữ lớn. Những ý tưởng này chịu ảnh hưởng bởi các tiến bộ gần đây như Kimi K2 của Moonshot AI, vốn đã chứng minh hành vi huấn luyện được cải thiện thông qua các bản cập nhật tham số có cấu trúc hơn.

YOLO26 sử dụng chiến lược cập nhật lai. Một số tham số được cập nhật bằng cách sử dụng kết hợp các bản cập nhật lấy cảm hứng từ Muon và SGD, trong khi những tham số khác chỉ sử dụng SGD. Điều này giúp YOLO26 giới thiệu thêm cấu trúc vào quá trình tối ưu hóa trong khi vẫn duy trì các đặc tính mạnh mẽ và khả năng tổng quát hóa vốn đã làm cho SGD trở nên hiệu quả.

Kết quả là sự tối ưu hóa mượt mà hơn, sự hội tụ nhanh hơn và hành vi huấn luyện dễ dự đoán hơn trên các kích thước mô hình, làm cho MuSGD trở thành một phần quan trọng của lý do tại sao YOLO26 dễ huấn luyện hơn và đáng tin cậy hơn ở quy mô lớn.

Link to this sectionÝ nghĩa các cải tiến huấn luyện của Ultralytics YOLO26#

Các cải tiến huấn luyện của Ultralytics YOLO26, kết hợp với các tính năng chính như thiết kế end-to-end, không NMS và ưu tiên thiết bị biên, làm cho mô hình dễ huấn luyện hơn và đáng tin cậy hơn ở quy mô lớn. Bạn có thể tự hỏi điều đó thực sự có ý nghĩa gì đối với các ứng dụng thị giác máy tính.

Cái nhìn tổng quan về các tính năng chính của YOLO26

Hình 4. Cái nhìn về các tính năng chính của YOLO26 (Nguồn)

Trong thực tế, nó giúp việc đưa thị giác máy tính đến nơi nó thực sự chạy trở nên dễ dàng hơn nhiều. Các mô hình huấn luyện có thể dự đoán được hơn, mở rộng nhất quán hơn trên các kích thước và đơn giản hơn để thích ứng với các tập dữ liệu mới. Điều này làm giảm ma sát giữa thử nghiệm và triển khai, đặc biệt là trong các môi trường mà độ tin cậy và hiệu suất quan trọng ngang với hiệu năng thô.

Ví dụ, trong các ứng dụng robot và thị giác công nghiệp, các mô hình thường cần được huấn luyện lại thường xuyên khi môi trường, cảm biến hoặc tác vụ thay đổi. Với YOLO26, các nhóm có thể lặp lại nhanh hơn mà không phải lo lắng về các lần huấn luyện không ổn định hoặc hành vi không nhất quán trên các kích thước mô hình.

Link to this sectionCác điểm chính cần lưu ý#

Các hệ thống thị giác máy tính đáng tin cậy phụ thuộc nhiều vào cách mô hình được huấn luyện cũng như cách chúng hoạt động tại thời điểm inference. Bằng cách cải thiện cách các tín hiệu học tập được cân bằng, cách các đối tượng nhỏ được xử lý và cách quá trình tối ưu hóa diễn ra, YOLO26 làm cho quá trình huấn luyện trở nên ổn định và dễ mở rộng hơn. Trọng tâm này vào việc huấn luyện đáng tin cậy giúp các nhóm chuyển dịch suôn sẻ hơn từ thử nghiệm sang triển khai thực tế, đặc biệt là trong các ứng dụng ưu tiên thiết bị biên.

Bạn muốn tìm hiểu về AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi để khám phá thêm. Tham gia cộng đồng năng động của chúng tôi và tìm hiểu về các đổi mới trong các lĩnh vực như AI trong hậu cần và AI thị giác trong ngành ô tô. Để bắt đầu với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Cách Ultralytics YOLO26 huấn luyện thông minh hơn với ProgLoss, STAL và MuSGD

Link to this sectionUltralytics YOLO26: Được xây dựng để huấn luyện thông minh hơn, không chỉ chạy nhanh hơn#

Link to this sectionCách hai đầu huấn luyện cải thiện khả năng học tập trong Ultralytics YOLO26#

Link to this sectionUltralytics YOLO26 sử dụng Progressive Loss Balancing#

Link to this sectionSTAL giúp Ultralytics YOLO26 học từ các đối tượng nhỏ như thế nào#

Link to this sectionUltralytics YOLO26 giới thiệu bộ tối ưu hóa MuSGD#

Link to this sectionÝ nghĩa các cải tiến huấn luyện của Ultralytics YOLO26#

Link to this sectionCác điểm chính cần lưu ý#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!