Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Khám phá mô hình Ultralytics YOLO mới nhất, Ultralytics YOLO26 và các tính năng tiên tiến của nó, hỗ trợ sự cân bằng tối ưu giữa tốc độ, độ chính xác và khả năng triển khai.
Vào ngày 25 tháng 9, tại sự kiện kết hợp hàng năm của chúng tôi, YOLO Vision 2025 (YV25) ở London, Glenn Jocher, Người sáng lập & Giám đốc điều hành của chúng tôi, đã chính thức công bố bước đột phá mới nhất trong dòng mô hình Ultralytics YOLO, Ultralytics YOLO26! Mô hình thị giác máy tính mới của chúng tôi, YOLO26, có thể phân tích và diễn giải hình ảnh và video với kiến trúc hợp lý hóa, cân bằng giữa tốc độ, độ chính xác và dễ triển khai.
Mặc dù Ultralytics YOLO26 đơn giản hóa các khía cạnh của thiết kế mô hình và bổ sung các cải tiến mới, nó cũng tiếp tục cung cấp các tính năng quen thuộc mà người dùng mong đợi từ các mô hình Ultralytics YOLO. Ví dụ: Ultralytics YOLO26 rất dễ sử dụng, hỗ trợ một loạt các tác vụ computer vision và cung cấp các tùy chọn tích hợp và triển khai linh hoạt.
Không cần phải nói, điều này giúp việc chuyển sang sử dụng Ultralytics YOLO26 trở nên dễ dàng và chúng tôi rất nóng lòng muốn thấy người dùng tự mình trải nghiệm nó khi nó được cung cấp công khai vào cuối tháng 10.
Hình 1. Một ví dụ về sử dụng YOLO26 để phát hiện các đối tượng trong một hình ảnh.
Nói một cách đơn giản, Ultralytics YOLO26 là một mô hình Vision AI tốt hơn, nhanh hơn và nhỏ hơn. Trong bài viết này, chúng ta sẽ khám phá các tính năng chính của Ultralytics YOLO26 và những gì nó mang lại. Hãy bắt đầu nào!
Vượt qua các giới hạn của Vision AI với Ultralytics YOLO26
Trước khi chúng ta đi sâu vào các tính năng chính của Ultralytics YOLO26 và các ứng dụng mà nó có thể thực hiện, hãy lùi lại một bước và thảo luận về nguồn cảm hứng và động lực thúc đẩy sự phát triển của mô hình này.
Tại Ultralytics, chúng tôi luôn tin vào sức mạnh của sự đổi mới. Ngay từ đầu, sứ mệnh của chúng tôi đã có hai mục tiêu. Một mặt, chúng tôi muốn làm cho Vision AI trở nên dễ tiếp cận để bất kỳ ai cũng có thể sử dụng nó mà không gặp rào cản. Mặt khác, chúng tôi cũng cam kết giữ cho nó ở vị trí dẫn đầu, vượt qua các giới hạn của những gì mô hình thị giác máy tính có thể đạt được.
Một yếu tố then chốt đằng sau sứ mệnh này là không gian AI luôn phát triển. Chẳng hạn, AI biên, liên quan đến việc chạy các mô hình AI trực tiếp trên thiết bị thay vì dựa vào đám mây, đang được áp dụng nhanh chóng trong các ngành công nghiệp.
Từ camera thông minh đến hệ thống tự động, các thiết bị ở biên (edge) hiện được kỳ vọng xử lý thông tin theo thời gian thực. Sự thay đổi này đòi hỏi các mô hình nhẹ hơn và nhanh hơn, đồng thời vẫn mang lại mức độ chính xác cao tương đương.
Đó là lý do tại sao luôn cần phải tiếp tục cải thiện các mô hình Ultralytics YOLO của chúng tôi. Như Glenn Jocher đã nói, "Một trong những thách thức lớn nhất là đảm bảo người dùng có thể tận dụng tối đa YOLO26 trong khi vẫn mang lại hiệu suất hàng đầu."
Tổng quan về Ultralytics YOLO26
YOLO26 có sẵn ngay khi xuất xưởng với năm biến thể mô hình khác nhau, mang đến cho bạn sự linh hoạt để tận dụng các khả năng của nó trong các ứng dụng ở mọi quy mô. Tất cả các biến thể mô hình này đều hỗ trợ nhiều tác vụ thị giác máy tính, giống như các mô hình Ultralytics YOLO trước đây. Điều này có nghĩa là bất kể bạn chọn kích thước nào, bạn có thể tin tưởng vào YOLO26 để cung cấp một loạt các khả năng, giống như Ultralytics YOLO11.
Phát hiện đối tượng: YOLO26 có thể xác định và định vị nhiều đối tượng trong một hình ảnh hoặc khung hình video.
Phân đoạn thể hiện: Vượt xa khả năng phát hiện, YOLO26 có thể tạo ra các ranh giới hoàn hảo đến từng pixel xung quanh mỗi đối tượng mà nó xác định.
Phân loại ảnh: Mô hình có thể phân tích toàn bộ hình ảnh và gán nó vào một danh mục hoặc nhãn cụ thể.
Ước tính tư thế: YOLO26 có thể phát hiện các điểm chính và ước tính tư thế cho người cũng như các đối tượng khác.
Hộp giới hạn xoay (Oriented bounding boxes - OBB): Mô hình có thể phát hiện các đối tượng ở mọi góc độ, đặc biệt hữu ích cho ảnh chụp từ trên không, bằng máy bay không người lái và vệ tinh, nơi các vật thể như tòa nhà, xe cộ hoặc cây trồng có thể không thẳng hàng với khung hình ảnh.
Theo dõi đối tượng: YOLO26 có thể được sử dụng để theo dõi các đối tượng trên các khung hình video hoặc luồng thời gian thực.
Hình 2. Phát hiện các đối tượng trong ảnh bằng YOLO26.
Một cái nhìn về kiến trúc của YOLO26
Bây giờ chúng ta đã hiểu rõ hơn về khả năng của YOLOv8, hãy cùng xem xét một số cải tiến trong kiến trúc của nó.
Thiết kế của mô hình đã được tinh giản bằng cách loại bỏ mô-đun Distribution Focal Loss (DFL), mô-đun này trước đây làm chậm quá trình suy luận và hạn chế hồi quy hộp giới hạn.
Quy trình dự đoán cũng đã được đơn giản hóa với tùy chọn suy luận end-to-end (E2E), cho phép mô hình bỏ qua bước Non-Maximum Suppression (NMS) truyền thống. Cải tiến này giúp giảm độ phức tạp và cho phép mô hình đưa ra kết quả nhanh hơn, giúp việc triển khai dễ dàng hơn trong các ứng dụng thực tế.
Những cải tiến khác làm cho mô hình thông minh hơn và đáng tin cậy hơn. Cân bằng Mất mát Lũy tiến (ProgLoss) giúp ổn định quá trình huấn luyện và cải thiện độ chính xác, trong khi Gán Nhãn Nhận Biết Mục Tiêu Nhỏ (STAL) đảm bảo mô hình phát hiện các đối tượng nhỏ hiệu quả hơn. Trên hết, một trình tối ưu hóa MuSGD mới cải thiện sự hội tụ huấn luyện và tăng hiệu suất tổng thể.
Trên thực tế, phiên bản nhỏ nhất của YOLO26, mô hình nano, hiện chạy nhanh hơn tới 43% trên CPU tiêu chuẩn, khiến nó đặc biệt phù hợp cho các ứng dụng di động, camera thông minh và các thiết bị biên khác, nơi tốc độ và hiệu quả là rất quan trọng.
Dưới đây là tóm tắt nhanh về các tính năng của YOLO26 và những gì người dùng có thể mong đợi:
Loại bỏ DFL: Chúng tôi đã loại bỏ mô-đun Distribution Focal Loss khỏi kiến trúc của mô hình. Bất kể kích thước đối tượng trong ảnh là bao nhiêu, YOLO26 có thể đặt các hộp giới hạn phù hợp đồng thời chạy hiệu quả hơn.
Suy luận NMS-free end-to-end: YOLO26 bổ sung một chế độ tùy chọn không cần Non-Maximum Suppression (NMS) (Triệt tiêu không cực đại), một bước thường được sử dụng để loại bỏ các dự đoán trùng lặp, giúp việc triển khai đơn giản hơn và nhanh hơn để sử dụng trong thời gian thực.
ProgLoss và STAL: Những cải tiến này giúp quá trình huấn luyện ổn định hơn và tăng đáng kể độ chính xác, đặc biệt là để phát hiện các đối tượng nhỏ trong các cảnh phức tạp.
Bộ tối ưu hóa MuSGD (MuSGD optimizer): YOLO26 sử dụng một bộ tối ưu hóa mới kết hợp các điểm mạnh của hai bộ tối ưu hóa huấn luyện (Muon và SGD), giúp mô hình học nhanh hơn và đạt được độ chính xác cao hơn.
Hình 3. Điểm chuẩn YOLO26.
Đơn giản hóa việc triển khai với Ultralytics YOLO26
Cho dù bạn đang làm việc trên các ứng dụng di động, máy ảnh thông minh hay hệ thống doanh nghiệp, việc triển khai YOLO26 rất đơn giản và linh hoạt. Gói Ultralytics Python hỗ trợ số lượng ngày càng tăng các định dạng xuất, giúp dễ dàng tích hợp YOLO26 vào các quy trình làm việc hiện có và tương thích với hầu hết mọi nền tảng.
Một vài tùy chọn xuất bao gồm TensorRT để tăng tốc GPU tối đa, ONNX để tương thích rộng rãi, CoreML cho các ứng dụng iOS gốc, TFLite cho Android và các thiết bị biên, và OpenVINO để tối ưu hóa hiệu suất trên phần cứng Intel. Sự linh hoạt này giúp bạn dễ dàng đưa YOLO26 từ giai đoạn phát triển đến sản xuất mà không gặp thêm trở ngại nào.
Một phần quan trọng khác của việc triển khai là đảm bảo các mô hình chạy hiệu quả trên các thiết bị có tài nguyên hạn chế. Đây là lúc lượng tử hóa phát huy tác dụng. Nhờ kiến trúc đơn giản hóa, YOLO26 xử lý điều này đặc biệt tốt. Nó hỗ trợ triển khai INT8 (sử dụng nén 8 bit để giảm kích thước và cải thiện tốc độ với mức giảm độ chính xác tối thiểu) cũng như độ chính xác một nửa (FP16) để suy luận nhanh hơn trên phần cứng được hỗ trợ.
Quan trọng nhất, YOLO26 mang lại hiệu suất nhất quán trên các mức lượng tử hóa này, vì vậy bạn có thể tin tưởng vào nó cho dù nó đang chạy trên một máy chủ mạnh mẽ hay một thiết bị biên nhỏ gọn.
Từ robot đến sản xuất: Các trường hợp sử dụng của YOLO26
YOLO26 có thể được sử dụng rộng rãi trong nhiều ứng dụng thị giác máy tính khác nhau trên nhiều ngành và trường hợp sử dụng khác nhau. Từ robot đến sản xuất, nó có thể tạo ra tác động đáng kể bằng cách cải thiện quy trình làm việc và cho phép đưa ra quyết định nhanh hơn, chính xác hơn.
Ví dụ: một ví dụ điển hình là trong ngành robot, nơi YOLO26 có thể giúp robot diễn giải môi trường xung quanh theo thời gian thực. Điều này làm cho việc điều hướng mượt mà hơn và xử lý đối tượng chính xác hơn. Nó cũng cho phép cộng tác an toàn hơn với mọi người.
Một ví dụ khác là sản xuất, nơi mô hình có thể được sử dụng để phát hiện khuyết tật. Nó có thể tự động xác định các lỗi trên dây chuyền sản xuất nhanh chóng và chính xác hơn so với kiểm tra thủ công.
Hình 4. Phát hiện chai trong nhà máy sản xuất bằng YOLO26.
Nói chung, vì YOLO26 tốt hơn, nhanh hơn và nhẹ hơn, nó dễ dàng thích ứng với nhiều môi trường khác nhau, từ các thiết bị biên (edge devices) nhẹ đến các hệ thống doanh nghiệp lớn. Điều này làm cho nó trở thành một lựa chọn thiết thực cho các ngành công nghiệp đang tìm cách cải thiện hiệu quả, độ chính xác và độ tin cậy.
Những điều cần nhớ
Ultralytics YOLO26 là một mô hình thị giác máy tính tốt hơn, nhanh hơn và nhẹ hơn, đồng thời vẫn dễ sử dụng và mang lại hiệu suất mạnh mẽ. Nó hoạt động trên nhiều tác vụ và nền tảng và sẽ có sẵn cho mọi người vào cuối tháng 10. Chúng tôi rất mong được thấy cộng đồng sử dụng nó để tạo ra các giải pháp mới và thúc đẩy ranh giới của thị giác máy tính.