Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Xem cách Ultralytics YOLO26 nhanh hơn ở biên và đó là lý do tại sao điều đó lại quan trọng đối với các ứng dụng thị giác máy tính thế hệ tiếp theo đòi hỏi độ trễ thấp và hiệu quả cao.
Đầu tuần này, Ultralytics Ultralytics YOLO26 chính thức ra mắt, một thiết bị nhanh hơn, nhẹ hơn và nhỏ gọn hơn. YOLO Mô hình này nhằm mục đích định nghĩa lại cách thức hoạt động của các hệ thống thị giác máy tính ở biên. YOLO26 hỗ trợ các tác vụ thị giác cốt lõi tương tự như các mô hình trước đó. YOLO các mô hình, bao gồm phát hiện đối tượng và phân đoạn đối tượng.
Hình 1. Một ví dụ về cách sử dụng YOLO26 để segment một vật thể.
Điểm khác biệt cốt lõi giữa YOLO26 và các mẫu trước đó là môi trường hoạt động mà nó được thiết kế. Thay vì tối ưu hóa chủ yếu cho bộ xử lý đồ họa (GPU) trên đám mây hoặc hiệu năng dựa trên các bài kiểm tra chuẩn, YOLO26 được thiết kế từ đầu để triển khai thực tế trên các thiết bị biên và phần cứng nhúng.
Khi công nghệ thị giác máy tính chuyển từ giai đoạn nghiên cứu sang ứng dụng thực tế, những hạn chế về hiệu năng ngày càng trở nên rõ ràng hơn. Môi trường điện toán biên chịu ảnh hưởng bởi độ trễ thấp, bộ nhớ hạn chế, các ràng buộc về điện năng và nhiệt độ, cũng như nhu cầu về hành vi có thể dự đoán được trên nhiều nền tảng khác nhau.
Trong những thiết lập này, hiệu suất tổng thể của hệ thống không chỉ phụ thuộc vào tốc độ suy luận thô mà còn phụ thuộc vào hiệu quả hoạt động của toàn bộ quy trình. Chi phí xử lý hậu kỳ, áp lực bộ nhớ và các đường dẫn thực thi dành riêng cho nền tảng thường là những điểm nghẽn.
YOLO26 giải quyết những thách thức này bằng cách áp dụng phương pháp nhanh hơn, ưu tiên xử lý tại biên, xem xét toàn bộ quy trình suy luận thay vì chỉ các chỉ số riêng lẻ của mô hình. Bằng cách tập trung vào tối ưu hóa tại biên, đơn giản hóa quy trình suy luận và loại bỏ các bước xử lý hậu kỳ không cần thiết, YOLO26 mang lại những cải tiến về tốc độ, dẫn đến độ trễ thấp hơn và hoạt động đáng tin cậy hơn trong môi trường sản xuất.
Trong bài viết này, chúng ta sẽ tìm hiểu cách các lựa chọn kiến trúc của YOLO26 mang lại những cải tiến hiệu năng thực tế, và tại sao việc nhanh hơn ở biên mạng lại thay đổi căn bản những gì có thể thực hiện được đối với các ứng dụng thị giác máy tính thế hệ tiếp theo.
Thực tế của việc triển khai ở biên
Việc chạy các mô hình thị giác máy tính ở biên khác rất nhiều so với việc chạy chúng trên đám mây. Trong môi trường đám mây, các hệ thống thường có quyền truy cập vào GPU mạnh mẽ, dung lượng bộ nhớ lớn và phần cứng ổn định. Ở biên , những giả định tương tự không áp dụng được.
Hầu hết các triển khai điện toán biên hoạt động trên nhiều kiến trúc phần cứng khác nhau, chứ không phải GPU. Các thiết bị thường sử dụng nhiều bộ xử lý chuyên dụng cho các tác vụ khác nhau, được tối ưu hóa cho hiệu quả và tiết kiệm điện năng hơn là khả năng tính toán thô của GPU trên đám mây.
Độ trễ là một hạn chế lớn khác. Các hệ thống biên thường hoạt động trong điều kiện thời gian thực rất khắt khe, nơi ngay cả những độ trễ nhỏ cũng có thể ảnh hưởng đến khả năng phản hồi hoặc tính an toàn. Trong những trường hợp này, độ trễ đầu cuối quan trọng hơn tốc độ suy luận thô. Một mô hình có thể nhanh trên lý thuyết nhưng vẫn không đáp ứng được yêu cầu khi thêm quá trình xử lý hậu kỳ và di chuyển dữ liệu.
Bộ nhớ cũng đóng vai trò rất quan trọng. Nhiều thiết bị biên có bộ nhớ hạn chế và bộ nhớ đệm dùng chung. Các tensor trung gian lớn và việc sử dụng bộ nhớ không hiệu quả có thể làm chậm hệ thống, ngay cả khi bản thân mô hình hoạt động hiệu quả.
Giới hạn về công suất và nhiệt độ đặt ra thêm nhiều ràng buộc. Các thiết bị biên thường hoạt động mà không có hệ thống làm mát chủ động và trong phạm vi ngân sách năng lượng cố định. Hiệu năng cần phải hiệu quả và bền vững, chứ không chỉ nhanh trong thời gian ngắn.
Trên hết, việc triển khai ở biên đòi hỏi tính nhất quán. Các mô hình phải hoạt động giống nhau trên các thiết bị và môi trường chạy khác nhau. Mã dành riêng cho nền tảng hoặc các bước xử lý hậu kỳ phức tạp có thể tạo ra những khác biệt nhỏ, khiến việc triển khai và bảo trì hệ thống trở nên khó khăn hơn.
Hình 2. Cái nhìn tổng quan về những hạn chế của việc triển khai ở biên mạng. Ảnh do tác giả cung cấp.
Những ràng buộc này xác định ý nghĩa thực sự của hiệu năng ở biên mạng. Nói cách khác, hiệu năng được xác định bởi toàn bộ quy trình xử lý, chứ không phải bởi một chỉ số đơn lẻ.
Vì sao thị giác biên đòi hỏi một mô hình hiệu năng khác biệt
Vậy, những hạn chế của việc triển khai ở biên có liên quan như thế nào đến các yêu cầu của mô hình thị giác máy tính được xây dựng cho môi trường biên? Mối liên hệ này trở nên rõ ràng khi các mô hình được chuyển từ môi trường nghiên cứu sang các hệ thống thực tế.
Trong môi trường điện toán đám mây, hiệu năng thường được đo bằng các chỉ số như tốc độ suy luận và độ chính xác. Ở biên mạng, những chỉ số đó chỉ phản ánh một phần sự thật. Các hệ thống thị giác thường hoạt động trên phần cứng không đồng nhất, trong đó quá trình suy luận mạng nơ-ron được chuyển sang các bộ tăng tốc chuyên dụng, trong khi các phần khác của quy trình xử lý chạy trên các bộ xử lý đa năng.
Trong bối cảnh này, tốc độ của mô hình thôi là chưa đủ. Hiệu suất của toàn bộ hệ thống sau khi mô hình được triển khai mới là yếu tố then chốt. Một mô hình có thể hoạt động nhanh chóng nếu chỉ xét riêng lẻ, nhưng vẫn có thể gặp vấn đề nếu các bước xử lý hậu kỳ, di chuyển dữ liệu hoặc các bước đặc thù của nền tảng làm tăng thêm chi phí.
Đó là lý do tại sao thị giác biên cần một mô hình hiệu năng tập trung vào hiệu quả ở cấp độ hệ thống thay vì các điểm chuẩn riêng lẻ. YOLO26 phản ánh sự thay đổi này bằng cách tập trung vào tối ưu hóa ưu tiên biên, suy luận được tinh giản và thực thi từ đầu đến cuối được xây dựng cho triển khai thực tế.
Nền tảng cho tốc độ: Thiết kế ưu tiên cạnh
Ở cấp độ thiết bị biên, hiệu năng được xác định bởi mức độ phù hợp của mô hình với kiến trúc phần cứng thực tế của thiết bị. Thiết kế ưu tiên cho thiết bị biên đảm bảo các hệ thống thị giác hoạt động đáng tin cậy trên các nền tảng thực tế, bất kể sự kết hợp cụ thể của các đơn vị xử lý có sẵn.
Cách tiếp cận ưu tiên xử lý trên thiết bị biên (edge-first) ưu tiên việc thực thi hiệu quả và có thể dự đoán được trên phần cứng không đồng nhất, thay vì điều chỉnh các mô hình đã được tối ưu hóa cho GPU đám mây sau đó. Nói một cách đơn giản, điều này có nghĩa là ưu tiên các thao tác có thể chuyển đổi tốt sang bộ tăng tốc mạng nơ-ron, giảm thiểu công việc không liên quan đến mạng nơ-ron bên ngoài mô hình và giảm bớt sự phức tạp không cần thiết có thể làm chậm quá trình thực thi từ đầu đến cuối.
YOLO26 được thiết kế với những ràng buộc này trong tâm trí. Kiến trúc của nó tập trung vào hiệu suất ổn định thay vì thông lượng tối đa trong điều kiện lý tưởng. Bằng cách đơn giản hóa các đường dẫn thực thi và loại bỏ các phép tính không cần thiết, YOLO26 giảm thiểu chi phí hoạt động trên toàn bộ quy trình suy luận và tận dụng tốt hơn khả năng tăng tốc và hệ thống phân cấp bộ nhớ sẵn có của thiết bị.
Cách tiếp cận này cũng cải thiện độ tin cậy. Tối ưu hóa ưu tiên xử lý tại biên giúp thời gian xử lý dễ dự đoán hơn và ít xảy ra hiện tượng tăng giảm hiệu suất đột ngột, điều này rất quan trọng đối với các hệ thống thời gian thực. Thay vì dựa vào phần cứng chuyên dụng hoặc xử lý hậu kỳ phức tạp để đạt được tốc độ, YOLO26 nhấn mạnh hiệu quả trong toàn bộ quy trình suy luận.
Suy luận từ đầu đến cuối và chi phí xử lý hậu kỳ
Có lẽ bạn đang thắc mắc việc loại bỏ các bước xử lý hậu kỳ không cần thiết nghĩa là gì. Để hiểu điều này, hãy cùng nhìn lại cách thức hoạt động của các hệ thống phát hiện đối tượng truyền thống.
Trong nhiều quy trình phát hiện đối tượng, quá trình suy luận không kết thúc khi mô hình đưa ra dự đoán. Thay vào đó, mô hình xuất ra một lượng lớn các hộp giới hạn chồng chéo, cần được lọc và tinh chỉnh trước khi có thể sử dụng. Quá trình làm sạch này diễn ra thông qua các bước xử lý hậu kỳ chạy bên ngoài chính mô hình.
Một trong những bước xử lý hậu kỳ phổ biến nhất là Khử nhiễu không tối đa (Non-Maximmum Suppression) , hay còn gọi là Khử nhiễu không tối đa (Non-Maximming). NMS . NMS Thuật toán so sánh các hộp giới hạn chồng chéo và chỉ giữ lại các phát hiện có độ tin cậy cao nhất, loại bỏ các bản sao trùng lặp tham chiếu đến cùng một đối tượng. Mặc dù phương pháp này hiệu quả, nhưng nó lại làm tăng thêm tính toán sau khi quá trình suy luận hoàn tất.
Hình 3. Sự hiểu biết NMS Ảnh do tác giả cung cấp.
Ở khâu xử lý hậu kỳ, công việc bổ sung này sẽ phát sinh chi phí. Các bước xử lý hậu kỳ như sau: NMS Chúng không phù hợp lắm với các bộ tăng tốc chuyên dụng được sử dụng cho suy luận mạng nơ-ron, vốn được tối ưu hóa cho tính toán nơ-ron dày đặc hơn là các hoạt động đòi hỏi nhiều thao tác điều khiển hoặc sử dụng nhiều bộ nhớ.
Do đó, NMS Nó gây ra độ trễ và tốn thêm bộ nhớ, và chi phí tăng lên khi số lượng phát hiện tăng. Ngay cả khi bản thân mô hình nhanh, NMS Nó vẫn có thể chiếm một phần đáng kể tổng thời gian chạy.
Xử lý hậu kỳ cũng làm tăng độ phức tạp của hệ thống. Vì nó nằm ngoài mô hình, nên nó phải được triển khai riêng biệt cho các môi trường chạy và mục tiêu phần cứng khác nhau. Điều này thường dẫn đến các đường dẫn mã dành riêng cho nền tảng, hành vi không nhất quán trên các thiết bị và các quy trình triển khai dễ bị lỗi hơn.
Quan trọng hơn hết, xử lý hậu kỳ phá vỡ khái niệm về hiệu năng thực sự từ đầu đến cuối. Việc đo tốc độ suy luận của mô hình không phản ánh cách hệ thống hoạt động trong môi trường sản xuất. Điều thực sự quan trọng là tổng thời gian từ đầu vào đến đầu ra cuối cùng, bao gồm mọi bước trong quy trình.
Trong những trường hợp này, xử lý hậu kỳ trở thành một nút thắt cổ chai tiềm ẩn ở biên mạng. Nó làm tăng độ trễ và tiêu tốn tài nguyên. CPU Điều này làm tốn nhiều tài nguyên và gây phức tạp cho việc triển khai, trong khi tất cả đều nằm ngoài mô hình.
Cách YOLO26 loại bỏ NMS và tại sao điều đó lại làm cho nó nhanh hơn
YOLO26 loại bỏ NMS bằng cách giải quyết nguyên nhân gốc rễ của các phát hiện trùng lặp thay vì chỉ làm sạch chúng sau khi suy luận. Thay vì tạo ra nhiều dự đoán chồng chéo cần được lọc, mô hình được huấn luyện để tạo ra một tập hợp nhỏ hơn các phát hiện cuối cùng đáng tin cậy một cách trực tiếp.
Điều này có thể thực hiện được bằng cách thay đổi cách học phát hiện trong quá trình huấn luyện. YOLO26 khuyến khích mối quan hệ một-đối-một rõ ràng hơn giữa các đối tượng và dự đoán, giảm thiểu sự dư thừa ngay từ nguồn. Kết quả là, các phát hiện trùng lặp được giải quyết bên trong mạng chứ không phải thông qua xử lý hậu kỳ bên ngoài.
Loại bỏ NMS có tác động tức thời đến hiệu năng biên. Vì vậy, NMS Việc này không phù hợp với các bộ tăng tốc mạng thần kinh, do đó việc loại bỏ nó sẽ giảm thiểu việc di chuyển bộ nhớ và tránh các bước xử lý phi thần kinh tốn kém. Điều này làm giảm độ trễ đầu cuối và giúp hiệu năng dễ dự đoán hơn, đặc biệt là trên các thiết bị biên, nơi mà quá trình xử lý hậu kỳ có thể tiêu tốn một phần đáng kể thời gian chạy tổng thể.
Điều này cũng giúp đơn giản hóa quy trình suy luận. Với ít bước hơn bên ngoài mô hình, sẽ có ít sự di chuyển dữ liệu và ít sự chuyển giao giữa các thành phần hơn. Đầu ra của mô hình đã là kết quả cuối cùng, điều này làm cho quá trình thực thi trở nên dễ dự đoán hơn.
Loại bỏ DFL để cho phép hiệu suất đầu cuối thực sự
Một cải tiến khác trong YOLO26 là việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss, hay DFL), vốn được sử dụng trong các phiên bản trước đó. YOLO Các mô hình hồi quy hộp giới hạn. Thay vì dự đoán trực tiếp một tọa độ duy nhất, các mô hình sử dụng DFL đã học được phân bố các giá trị có thể có và sau đó suy ra hộp giới hạn cuối cùng từ phân bố đó. Cách tiếp cận này đã giúp cải thiện độ chính xác định vị và là một bước tiến quan trọng so với các thế hệ trước.
Tuy nhiên, theo thời gian, DFL cũng mang đến những sự đánh đổi. Việc dự đoán phân phối làm tăng khối lượng tính toán và độ phức tạp cho kiến trúc mô hình, điều này có thể làm chậm quá trình suy luận trên CPU và khiến việc xuất mô hình giữa các định dạng triển khai trở nên khó khăn hơn. DFL cũng áp đặt các phạm vi hồi quy cố định, điều này có thể hạn chế tính linh hoạt khi phát hiện các đối tượng rất lớn.
YOLO26 loại bỏ DFL như một phần trong quá trình hướng tới thiết kế đơn giản hơn, từ đầu đến cuối. Phương pháp hồi quy hộp giới hạn được thiết kế lại để trực tiếp hơn, giảm thiểu các phép tính không cần thiết trong khi vẫn duy trì độ chính xác. Thay đổi này phù hợp với mục tiêu của YOLO26. NMS - cách tiếp cận miễn phí.
Trong đó tốc độ nhanh hơn 43% CPU Suy luận xuất phát từ
TRONG CPU Dựa trên các tiêu chuẩn đánh giá, YOLO26 cho thấy sự cải thiện hiệu năng rõ rệt so với các phiên bản trước đó. YOLO So với Ultralytics YOLO11 , mẫu YOLO26 nano mang lại tốc độ nhanh hơn tới 43%. CPU Suy luận, một sự khác biệt có tác động đáng kể trong các triển khai điện toán biên thực tế.
Hình 4. So sánh hiệu năng YOLO26 CPU Tốc độ.
Lợi ích này có được nhờ việc đơn giản hóa toàn bộ quy trình suy luận thay vì tối ưu hóa một thành phần riêng lẻ. Việc thực thi từ đầu đến cuối loại bỏ chi phí xử lý hậu kỳ, phương pháp hồi quy hộp giới hạn trực tiếp hơn giúp giảm thiểu tính toán, và CPU - Những lựa chọn thiết kế ban đầu giúp cải thiện hiệu quả thực thi trên các bộ xử lý đa năng.
Nhìn chung, những thay đổi này giúp giảm độ trễ và giảm chi phí. CPU khối lượng công việc, và dẫn đến hiệu suất nhanh hơn, ổn định hơn trên phần cứng biên thực tế.
Tác động của YOLO26 đối với việc triển khai và xuất dữ liệu ở biên mạng.
Những cải tiến về hiệu năng của YOLO26 không chỉ dừng lại ở tốc độ suy luận nhanh hơn. Bằng cách đơn giản hóa mô hình và giảm thiểu lượng bộ nhớ tiêu hao, nó trở nên dễ triển khai hơn và hoạt động đáng tin cậy hơn trên các môi trường biên.
Thiết kế tích hợp từ đầu đến cuối của YOLO26 cũng giúp đơn giản hóa quá trình xuất khẩu . Với ít thành phần phụ trợ hơn và không có các bước xử lý hậu kỳ bên ngoài, các mô hình được xuất ra hoàn toàn độc lập. Điều này giảm thiểu sự phụ thuộc vào nền tảng và giúp đảm bảo hành vi nhất quán trên các môi trường chạy và mục tiêu phần cứng khác nhau.
Trên thực tế, điều này có nghĩa là YOLO26 có thể được triển khai dễ dàng hơn đến các thiết bị biên như camera, robot và hệ thống nhúng, bằng cách sử dụng nhiều định dạng xuất khác nhau. Những gì bạn xuất ra chính là những gì bạn chạy, với ít bước tích hợp hơn và ít rủi ro sai lệch trong quá trình triển khai.
Khả năng suy luận nhanh hơn ở biên giúp hỗ trợ trí tuệ nhân tạo trong lĩnh vực robot và thị giác công nghiệp.
Cho đến nay, chúng ta đã xem xét cách thiết kế ưu tiên xử lý trên thiết bị biên của YOLO26 cải thiện hiệu suất ở cấp độ hệ thống. Tuy nhiên, tác động thực sự nằm ở cách nó giúp việc tích hợp Trí tuệ Nhân tạo Thị giác (Vision AI) vào các ứng dụng thực tế trở nên dễ dàng hơn.
Ví dụ, trong lĩnh vực robot và môi trường công nghiệp, hệ thống thị giác thường hoạt động dưới những ràng buộc nghiêm ngặt về thời gian thực. Các quyết định cần được đưa ra nhanh chóng và nhất quán, sử dụng tài nguyên tính toán hạn chế và không phụ thuộc vào kết nối đám mây. Với Ultralytics Với YOLO26, việc đáp ứng các yêu cầu này trở nên khả thi.
Các ứng dụng như điều hướng robot và thao tác vật thể được hưởng lợi từ độ trễ thấp hơn và khả năng suy luận dễ dự đoán hơn, cho phép robot phản ứng mượt mà với những thay đổi trong môi trường của chúng. Tương tự, trong môi trường công nghiệp, các mô hình thị giác có thể chạy trực tiếp trên dây chuyền sản xuất để detect khuyết điểm, track các thành phần và giám sát các quy trình mà không gây ra sự chậm trễ hoặc phức tạp thêm.
Bằng cách cho phép suy luận nhanh chóng và đáng tin cậy trên phần cứng biên, YOLO26 giúp biến Trí tuệ nhân tạo thị giác trở thành một phần tự nhiên của robot và hệ thống công nghiệp, thay vì là một thách thức trong việc triển khai và bảo trì.
Những điều cần nhớ
YOLO26 được xây dựng cho môi trường biên, nơi các ràng buộc thực tế như độ trễ, bộ nhớ và độ tin cậy quyết định những gì có thể thực hiện được. Bằng cách thiết kế mô hình dựa trên CPU Với khả năng thực thi ưu tiên thiết bị đầu cuối, suy luận từ đầu đến cuối và triển khai đơn giản hơn, YOLO26 giúp việc tích hợp Trí tuệ Nhân tạo Thị giác vào các hệ thống thực tế trở nên khả thi. Cách tiếp cận ưu tiên thiết bị đầu cuối này cho phép ứng dụng rộng rãi, từ robot và thị giác công nghiệp đến AI nhúng và trên thiết bị, nơi hiệu suất và khả năng dự đoán là yếu tố quan trọng nhất.
Tham gia cộng đồng đang phát triển của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm kiếm các tài nguyên AI thực hành. Để xây dựng với Vision AI ngay hôm nay, hãy khám phá các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách AI trong nông nghiệp đang chuyển đổi nông nghiệp và cách Vision AI trong chăm sóc sức khỏe đang định hình tương lai bằng cách truy cập các trang giải pháp của chúng tôi.