Làm sao Ultralytics YOLO26 huấn luyện hiệu quả hơn với ProgLoss, STAL và MuSGD.
Tìm hiểu cách Ultralytics YOLO26 huấn luyện đáng tin cậy hơn bằng cách sử dụng Cân bằng tổn thất tiến triển, Gán nhãn nhận biết mục tiêu nhỏ và trình tối ưu hóa MuSGD.
.webp)
Tìm hiểu cách Ultralytics YOLO26 huấn luyện đáng tin cậy hơn bằng cách sử dụng Cân bằng tổn thất tiến triển, Gán nhãn nhận biết mục tiêu nhỏ và trình tối ưu hóa MuSGD.
.webp)
Tuần trước, chúng tôi đã phát hành Ultralytics YOLO26 , thiết lập một tiêu chuẩn mới cho các mô hình thị giác máy tính thời gian thực, ưu tiên xử lý trên thiết bị biên. Tương tự như các mô hình Ultralytics YOLO trước đây, chẳng hạn như Ultralytics YOLO11 , YOLO26 hỗ trợ các tác vụ thị giác máy tính cốt lõi mà người dùng đã quen thuộc, bao gồm phát hiện đối tượng, phân đoạn đối tượng và ước tính tư thế.

Tuy nhiên, YOLO26 không chỉ là một bản cập nhật nhỏ. Mặc dù các tác vụ được hỗ trợ có vẻ quen thuộc, mô hình mới này đại diện cho một bước tiến đột phá trong cách huấn luyện các mô hình thị giác máy tính . Với YOLO26, trọng tâm không chỉ dừng lại ở hiệu quả suy luận mà còn hướng đến việc làm cho quá trình huấn luyện ổn định hơn.
YOLO26 được thiết kế với toàn bộ vòng đời huấn luyện trong tâm trí. Điều này có nghĩa là sự hội tụ nhanh hơn, các lần chạy huấn luyện đáng tin cậy hơn và hành vi mô hình nhất quán. Những cải tiến này đặc biệt quan trọng trong các quy trình làm việc thực tế, nơi độ tin cậy của quá trình huấn luyện ảnh hưởng trực tiếp đến tốc độ có thể lặp lại và triển khai mô hình.
Để thực hiện điều này, YOLO26 giới thiệu một số cải tiến huấn luyện có mục tiêu cụ thể như Cân bằng tổn thất tiến triển (ProgLoss), Gán nhãn nhận biết mục tiêu nhỏ (STAL) và trình tối ưu hóa MuSGD. Cùng nhau, những thay đổi này cải thiện cách cân bằng tổn thất học tập, cách gán nhãn và cách tối ưu hóa hoạt động theo thời gian.
Trong bài viết này, chúng ta sẽ tìm hiểu cách thức hoạt động của từng cơ chế này và lý do tại sao chúng lại tạo nên hiệu quả. Ultralytics YOLO26 dễ huấn luyện hơn và đáng tin cậy hơn ở quy mô lớn. Hãy bắt đầu nào!
Ultralytics YOLO26 tự động tối ưu hóa toàn bộ quy trình suy luận bằng cách loại bỏ sự phụ thuộc vào các bước xử lý hậu kỳ như loại bỏ cực đại cục bộ (Non-Maximum Suppression). Thay vì tạo ra nhiều dự đoán chồng chéo và lọc chúng sau đó, YOLO26 tạo ra các phát hiện cuối cùng trực tiếp từ mạng.
Điều này biến YOLO26 thành một mô hình hoàn chỉnh , trong đó dự đoán, giải quyết trùng lặp và đầu ra cuối cùng đều được học trong chính mạng lưới. Điều này đơn giản hóa việc triển khai và cải thiện hiệu quả suy luận, đồng thời định hình cách mô hình học trong quá trình huấn luyện.

Trong một hệ thống khép kín như thế này, quá trình huấn luyện và suy luận được kết nối chặt chẽ. Vì không có giai đoạn xử lý hậu kỳ bên ngoài nào để hiệu chỉnh dự đoán sau này, mô hình phải học cách đưa ra các quyết định rõ ràng và tự tin ngay trong quá trình huấn luyện.
Điều này làm cho việc đảm bảo sự phù hợp giữa mục tiêu huấn luyện và hành vi suy luận trở nên đặc biệt quan trọng. Bất kỳ sự không khớp nào giữa cách mô hình được huấn luyện và cách nó được sử dụng trong quá trình suy luận đều có thể dẫn đến quá trình học không ổn định hoặc hội tụ chậm hơn.
YOLO26 giải quyết vấn đề này bằng cách thiết kế quy trình huấn luyện dựa trên việc sử dụng thực tế ngay từ đầu. Thay vì chỉ tập trung vào tốc độ suy luận, hệ thống huấn luyện được xây dựng để hỗ trợ quá trình học tập ổn định trong thời gian dài, sự hội tụ nhất quán trên các kích thước mô hình từ Nano đến Extra Large, và hiệu suất mạnh mẽ trên các tập dữ liệu đa dạng.
Một trong những đổi mới quan trọng trong đào tạo là... Ultralytics YOLO26 được xây dựng dựa trên phương pháp huấn luyện hai đầu được sử dụng trong các phiên bản trước đó. YOLO Trong các mô hình phát hiện đối tượng, "đầu" (head) đề cập đến phần của mạng chịu trách nhiệm đưa ra dự đoán.
Nói cách khác, các đầu dò học cách dự đoán vị trí của các đối tượng trong ảnh và chúng là gì. Chúng thực hiện điều này bằng cách hồi quy tọa độ hộp giới hạn, nghĩa là chúng học cách ước tính vị trí và kích thước của từng đối tượng trong ảnh đầu vào.
Trong quá trình huấn luyện, mô hình học bằng cách giảm thiểu tổn thất, một thước đo bằng số cho biết dự đoán của mô hình sai lệch bao nhiêu so với câu trả lời chính xác hoặc dữ liệu thực tế. Tổn thất càng thấp nghĩa là dự đoán của mô hình càng gần với dữ liệu thực tế, trong khi tổn thất càng cao cho thấy sai số càng lớn. Việc tính toán tổn thất hướng dẫn cách mô hình cập nhật các tham số của nó trong quá trình huấn luyện.
YOLO26 sử dụng hai đầu phát hiện trong quá trình huấn luyện, chúng chia sẻ cùng một mô hình cơ bản nhưng phục vụ các mục đích khác nhau. Đầu phát hiện "một-đối-một" là đầu được sử dụng trong giai đoạn suy luận. Nó học cách liên kết mỗi đối tượng với một dự đoán duy nhất, đáng tin cậy, điều này rất cần thiết cho quá trình xử lý từ đầu đến cuối của YOLO26. NMS - Thiết kế miễn phí.
Trong khi đó, đầu nối một-nhiều chỉ được sử dụng trong quá trình huấn luyện. Nó cho phép nhiều dự đoán được liên kết với cùng một đối tượng, cung cấp sự giám sát dày đặc hơn. Tín hiệu học tập phong phú hơn này giúp ổn định quá trình huấn luyện và cải thiện độ chính xác, đặc biệt là trong giai đoạn đầu.
Trong YOLO26, cả hai đầu ra đều sử dụng cùng một phương pháp tính toán tổn thất cho hồi quy hộp và phân loại. Các phiên bản trước đó áp dụng sự cân bằng cố định giữa hai tín hiệu tổn thất này trong suốt quá trình huấn luyện.
Tuy nhiên, trên thực tế, tầm quan trọng của mỗi đầu thu tín hiệu thay đổi theo thời gian. Giám sát chặt chẽ hữu ích nhất ở giai đoạn đầu, trong khi sự phù hợp với hành vi suy luận trở nên quan trọng hơn ở giai đoạn sau của quá trình huấn luyện. YOLO26 được thiết kế dựa trên nhận thức này, dẫn trực tiếp đến cách nó cân bằng lại các tín hiệu học tập khi quá trình huấn luyện diễn ra.
Vậy, làm thế nào để Ultralytics YOLO26 xử lý những nhu cầu học tập thay đổi này trong quá trình huấn luyện như thế nào? Nó sử dụng phương pháp Cân bằng tổn thất tiến triển (Progressive Loss Balancing) để điều chỉnh trọng số của các tín hiệu học tập theo thời gian.
ProgLoss hoạt động bằng cách điều chỉnh động mức độ đóng góp của mỗi đầu vào tổng tổn thất khi quá trình huấn luyện diễn ra. Ban đầu, trọng số được đặt nhiều hơn vào đầu mối quan hệ một-nhiều để ổn định quá trình học và cải thiện khả năng ghi nhớ. Khi quá trình huấn luyện tiếp tục, sự cân bằng dần dần chuyển sang đầu mối quan hệ một-một, giúp quá trình huấn luyện phù hợp hơn với hành vi suy luận.
Quá trình chuyển đổi dần dần này cho phép YOLO26 học theo đúng trình tự. Thay vì buộc mô hình phải tối ưu hóa các mục tiêu cạnh tranh cùng một lúc, Progressive Loss Balancing ưu tiên tín hiệu học tập hữu ích nhất ở mỗi giai đoạn huấn luyện. Kết quả là sự hội tụ mượt mà hơn, ít lần huấn luyện không ổn định hơn và hiệu suất cuối cùng nhất quán hơn.
Một cải tiến thú vị khác trong quá trình đào tạo là... Ultralytics YOLO26 xuất phát từ cách mô hình gán các mục tiêu huấn luyện cho các dự đoán, một quá trình được gọi là gán nhãn. Nó chịu trách nhiệm khớp các đối tượng thực tế với các dự đoán ứng cử viên, thường được gọi là các điểm neo.
Các kết quả khớp này xác định những dự đoán nào nhận được sự giám sát và đóng góp vào tổn thất. YOLO26 được xây dựng dựa trên một phương pháp gán nhãn hiện có gọi là Học căn chỉnh nhiệm vụ (Task Alignment Learning - TAL), được thiết kế để căn chỉnh tốt hơn giữa phân loại và định vị trong quá trình huấn luyện.
Mặc dù TAL hoạt động tốt với hầu hết các đối tượng, quá trình huấn luyện đã bộc lộ một hạn chế quan trọng. Trong quá trình khớp, các đối tượng rất nhỏ có thể bị loại bỏ hoàn toàn. Trên thực tế, các đối tượng nhỏ hơn khoảng 8 pixel trong ảnh đầu vào 640 pixel thường không nhận được bất kỳ gán neo nào. Khi điều này xảy ra, mô hình nhận được rất ít hoặc không nhận được sự giám sát nào đối với các đối tượng đó, khiến việc học trở nên khó khăn. detect Chúng đáng tin cậy.
Để giải quyết vấn đề này, YOLO26 giới thiệu phương pháp gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment - STAL). STAL điều chỉnh quy trình gán nhãn để đảm bảo rằng các đối tượng nhỏ không bị bỏ qua trong quá trình huấn luyện. Cụ thể, nó yêu cầu tối thiểu bốn nhãn neo được gán cho các đối tượng nhỏ hơn 8 pixel. Điều này đảm bảo rằng ngay cả các đối tượng nhỏ cũng luôn đóng góp vào tổn thất huấn luyện.
Bằng cách tăng cường giám sát đối với các mục tiêu nhỏ, STAL cải thiện tính ổn định của quá trình học và hiệu suất phát hiện trong các tình huống có nhiều vật thể nhỏ hoặc ở xa. Sự cải thiện này đặc biệt quan trọng đối với các ứng dụng YOLO26 ưu tiên xử lý dữ liệu tại biên như ảnh chụp từ trên không, robot và hệ thống Internet vạn vật (IoT), nơi các vật thể thường nhỏ, ở xa hoặc chỉ hiển thị một phần và việc phát hiện đáng tin cậy là rất quan trọng.
Để hỗ trợ quá trình huấn luyện ổn định và dễ dự đoán hơn, Ultralytics YOLO26 cũng giới thiệu một trình tối ưu hóa mới có tên là MuSGD. Trình tối ưu hóa này được thiết kế để cải thiện khả năng hội tụ và độ tin cậy huấn luyện trong các mô hình phát hiện đầu cuối, đặc biệt khi kích thước mô hình và độ phức tạp huấn luyện tăng lên.
Để mạng nơ-ron có thể học hỏi và tự điều chỉnh trọng số trong quá trình huấn luyện, chúng ta cần tính toán một lỗi (còn gọi là "loss"). Do đó, mô hình đo lường mức độ sai lệch của dự đoán bằng giá trị loss, tính toán độ dốc cho biết các tham số cần thay đổi như thế nào, và sau đó cập nhật các tham số đó để giảm lỗi. Thuật toán tối ưu hóa Stochastic Gradient Descent ( SGD ) là một thuật toán được sử dụng rộng rãi để thực hiện các cập nhật này, giúp quá trình huấn luyện hiệu quả và có khả năng mở rộng.

MuSGD xây dựng trên nền tảng quen thuộc này bằng cách kết hợp các ý tưởng tối ưu hóa lấy cảm hứng từ Muon, một phương pháp được sử dụng trong huấn luyện mô hình ngôn ngữ quy mô lớn. Những ý tưởng này chịu ảnh hưởng bởi những tiến bộ gần đây như Kimi K2 của Moonshot AI, đã chứng minh hành vi huấn luyện được cải thiện thông qua việc cập nhật tham số có cấu trúc hơn.
YOLO26 sử dụng chiến lược cập nhật lai. Một số tham số được cập nhật bằng cách kết hợp các phương pháp cập nhật lấy cảm hứng từ Muon và SGD trong khi những người khác sử dụng SGD một mình. Điều này cho phép YOLO26 đưa thêm cấu trúc vào quá trình tối ưu hóa trong khi vẫn duy trì được tính mạnh mẽ và khả năng khái quát hóa đã làm nên thành công của nó. SGD hiệu quả.
Kết quả là quá trình tối ưu hóa mượt mà hơn, hội tụ nhanh hơn và hành vi huấn luyện dễ dự đoán hơn trên các kích thước mô hình khác nhau, khiến MuSGD trở thành một phần quan trọng lý giải tại sao YOLO26 dễ huấn luyện hơn và đáng tin cậy hơn ở quy mô lớn.
Ultralytics Những cải tiến trong công nghệ huấn luyện của YOLO26, kết hợp với các tính năng chính như tính năng toàn diện từ đầu đến cuối, NMS - Không cần cấu trúc logic phức tạp và thiết kế ưu tiên xử lý cạnh giúp mô hình dễ huấn luyện hơn và đáng tin cậy hơn ở quy mô lớn. Bạn có thể tự hỏi điều đó thực sự có ý nghĩa gì đối với các ứng dụng thị giác máy tính.

Trên thực tế, nó giúp việc đưa thị giác máy tính vào hoạt động thực tế dễ dàng hơn nhiều. Các mô hình được huấn luyện một cách dễ dự đoán hơn, mở rộng quy mô nhất quán hơn trên các kích thước khác nhau và dễ dàng thích ứng với các tập dữ liệu mới. Điều này giảm thiểu sự cản trở giữa thử nghiệm và triển khai, đặc biệt trong các môi trường mà độ tin cậy và hiệu quả quan trọng không kém gì hiệu năng thô.
Ví dụ, trong các ứng dụng robot và thị giác công nghiệp, các mô hình thường cần được huấn luyện lại thường xuyên khi môi trường, cảm biến hoặc nhiệm vụ thay đổi. Với YOLO26, các nhóm có thể lặp lại nhanh hơn mà không cần lo lắng về các lần huấn luyện không ổn định hoặc hành vi không nhất quán giữa các kích thước mô hình khác nhau.
Các hệ thống thị giác máy tính đáng tin cậy phụ thuộc rất nhiều vào cách thức huấn luyện mô hình cũng như hiệu suất của chúng trong quá trình suy luận. Bằng cách cải thiện sự cân bằng của các tín hiệu học tập, cách xử lý các đối tượng nhỏ và cách thức tối ưu hóa diễn ra, YOLO26 giúp quá trình huấn luyện ổn định hơn và dễ dàng mở rộng hơn. Việc tập trung vào huấn luyện đáng tin cậy này giúp các nhóm chuyển đổi suôn sẻ hơn từ giai đoạn thử nghiệm sang triển khai thực tế, đặc biệt là trong các ứng dụng ưu tiên thiết bị biên.
Bạn muốn tìm hiểu về Trí tuệ nhân tạo (AI)? Hãy truy cập kho lưu trữ GitHub của chúng tôi để khám phá thêm. Tham gia cộng đồng năng động của chúng tôi và tìm hiểu về những đổi mới trong các lĩnh vực như AI trong logistics và AI thị giác máy tính trong ngành công nghiệp ô tô . Để bắt đầu với thị giác máy tính ngay hôm nay, hãy xem các tùy chọn cấp phép của chúng tôi.